Thèse

Fokeb

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

193 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

Thèse présentée à l’Ecole Nationale Supérieure des Télécommunications de Bretagne EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ DE BRETAGNE SUD EN COTUTELLE AVEC L’UNIVERSITÉ MOHAMED-V-AGDALDE RABAT pour obtenir le grade de :Docteur de Télécom Bretagne mention : Traitement du Signal et T´el´ecommunications par Asmaa Amehraye Débruitage perceptuel de la parole Soutenue le 15 mai 2009 devant la commission d’Examen : Composition du Jury : Président : Jacques FROMENT, Professeur à l’UBS, Vannes Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1 Yves LAPRIE, directeur de recherche au CNRS, Nancy Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal Ahmed TAMTAOUI, professeur à l’INPT, Rabat Samir SAOUDI, professeur à Télécom Bretagne, Brest Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest Christophe BEAUGEANT, ingénieur de recherche, INFINEON`A la m´emoire de mon p`ereRemerciements Je tiens d’abord `a remercier Dominique PASTOR pour avoir encadr´e cette th`ese et pour m’avoir encourag´ee, motiv´ee et conseill´ee tout au long de mes ann´ees de th`ese sans oublier les heures de discussions fructueuses au t´el´ephones lors des p´eriodes de th`ese pass´ees au Maroc. Je remercie ´egalement le professeur Driss Aboutajdine qui as cru en mes comp´etences jusqu’au bout et m’a propos´e cette th`ese en cotutelle pour la premi`ere fois entre l’Universit´e MohamedV-Agdal et T´el´ecom Bretagne. `Je remercie vivement les professeurs R´egine LE BOUQUIN JEANNES et Yves LAPRIE pour avoir accept´e de rapporter cette th`ese. Merci pour toutes vos remarques et questions qui ont permis de mettre plus en valeur ce document de synth`ese. Mes remerciements vont ´egalement aux membres de mon jury : M. Jacques FRO- MENT qui a accept´e de pr´esider la soutenance, M. Ahmed TAMTAOUI et M. Chris- tophe BEUAGEANT pour l’int´erˆet qu’ils ont port´e `a mes travaux et ﬁnalement le professeur Samir SAOUDI pour avoir accept´e de diriger cette th`ese et la mener `a terme surtout administrativement. Je garde un souvenir chaleureux de l’´equipe des permanents et des th´esards du d´epartement Signal et Communications pour leur esprit de famille. Je les remercie pour tous les bons moments pass´es ensemble. Un grand merci `a tous les volontaires (permanents, th´esards et stagiaires), des diﬀ´erents d´epartements de T´el´ecom Bretagne, qui se sont pris la peine de passer une heure et demi de tests d’´ecoute aﬁn que je puisse reproduire une analyse subjective de mes algorithmes. Merci `a tout ceux que j’ai connu de l’ensemble du personnel administratif et tech- nique de TELECOM Bretagne pour leur gentillesse, disponibilit´e et eﬃcacit´e. Une pens´ee profonde et aﬀectueuse `a ma ch`ere mama qui m’a toujours soutenu et fait conﬁance, sans elle et feu mon p`ere, je n’aurais jamais pu partir loin de mon pays et faire cette th`ese. Merci inﬁniment pour vos pri`eres. Mes vives remerciements `a mes soeurs et `a mon fr`ere pour leur solidarit´e, leur encouragements, leur patience et leur amour. Sachez que votre soutien est bien plus puissant que vous ne l’imaginez. A mon rayon de soleil qui a ´eclair´e le ciel gris de la Bretagne, qui m’a encourag´ee, soutenue et motiv´ee sans cesse pour arriver au bout de cette th`ese, un grand merci pour tout.R´esum´e Depuis une dizaine d’ann´ee, l’investigation des m´ethodes de d´ebruitage de la parole a permis d’atteindre des r´esultats spectaculaires. Cependant, certaines probl´ematiques etquestionsrestentouvertes.Unedecesprobl´ematiquesestdeparvenir`auncompromis entrelar´eductiondubruit,ladistorsiondusignaletlebruitr´esidueletmusical.L’essor des m´ethodes bas´ees sur des notions perceptuelles, essentiellement le ph´enom`ene de masquage fr´equentiel, a suscit´e beaucoup d’int´erˆet ces derni`eres d´ecennies. L’objectif de base des ﬁltres perceptuels est de r´eduire le bruit sans apporter plus de distorsion sur le signal de parole. L’une des fac¸ons d’´eviter des distorsions superﬂues est alors d’op´erer uniquement dans les fr´equences ou` le bruit est perceptuellement signiﬁcatif. Cependant, en proc´edant ainsi, le bruit initialement inaudible, et par cons´equent non pris en compte par le d´ebruitage perceptuel, risque de devenir audible et gˆenant si les masquants de ce bruit sont ﬁltr´es. C’est ce que l’on nomme dans cette th`ese, le ph´enom`ene MAN (Maskee to Audible Noise). Lescontributionsmajeuresdecetteth`esesontenpremierlieu,demettreen´evidence ce ph´enom`ene qui, `a notre connaissance, n’a jamais encore ´et´e d´ecrit et de montrer ses eﬀets secondaires. Ensuite, nous proposons une approche ´el´ementaire pour rem´edier au ph´enom`ene MAN grˆace `a un double ﬁltrage att´enuant le bruit dans toutes les fr´equences pour ´eviter la production de ce ph´enom`ene. Nous proposons une deuxi`eme approche bas´ee sur un ﬁltre optimal, dit anti-MAN, au sens d’un crit`ere s´electif par zone de fr´equence. A travers ce crit`ere, nous d´eﬁnissons la zone du ph´enom`ene MAN et pouvons ainsi att´enuer le bruit y contribuant. Des ´evaluations comparatives sur des crit`eres objectifs et subjectifs de qualit´e sont pr´esent´ees pour plusieurs types de bruit et de rapport signal `a bruit. Les r´esultats ont r´ev´el´elasup´eriorit´edesm´ethodespropos´eesdanscetravailparrapport`adesm´ethodes perceptuelles r´ecentes ne consid´erant pas le ph´enom`ene MAN. Dans la suite exp´erimentale de ce travail, nous avons conc¸u deux syst`emes de re- connaissance de la parole avec HTK (Hidden Markov Models); l’un est bas´e sur des monophonesetl’autresurdestriphones.Laphased’apprentissagedecesdeuxsyst`emes s’est d´eroul´ee en absence du bruit; ceci nous apermis d’´evaluer l’impact du d´ebruitage sur les performances de ces syst`emes en pr´esence de bruit. Les r´esultats montrent que les m´ethodes qui se distinguent par rapport `a des crit`eres objectifs et mˆeme subjectifs ne sont pas forc´ement celles qui rendent les syst`emes de reconnaissance plus robustes. Ces derniers sont g´en´eralement plus sensibles aux distorsions vu que le destinataire ﬁnal est une machine. Mots cl´es : D´ebruitage perceptuel, psychoacoustique, ﬁltrage de Wiener, mas- quagefr´equentiel,bruitmusical,distorsiondusignal,ph´enom`ene MAN,testssubjectifs et objectifs, reconnaissance de la parole.Abstract Speech enhancement has been extensively investigated in the last years giving rise to spectacular results. However, some problems and questions remain open. One of these problems is to reach a compromise between noise reduction, signal distorsion and residual musical noise. The development of methods based on perceptual notions, mainly on the masking phenomenon, gained a lot of interest these last decades. The basic objective of perceptual ﬁlters is to reduce noise without introducing much signal distorsion.Onewaytoavoidsuperﬂuousdistorsionisthentooperateonlyinfrequencies wherenoiseisperceptuallysigniﬁcant.However,bysoprocessing,theinitiallyinaudible noise, and as such not taken into account by the perceptual denoising, can become audible and annoying if its maskers are ﬁltered. This is what we call in this thesis the MAN phenomenon (Maskee to Audible Noise). Themaincontributionsofthisthesisarethefollowingones.Webeginbyillustrating the MAN phenomenon, which, to our knowledge, has never been presented before. We show the side eﬀects of this phenomenon. Then, we propose a basic approach to correct the MAN phenomenon thanks to a double ﬁltering that attenuates noise in all frequencies to avoid the production of this phenomenon. We propose a second approach based on an optimal ﬁlter called anti-MAN ﬁlter. It is frequency selective. In this criterion, we deﬁne the MAN phenomenon location to attenuate the noise contributing to it. Comparative evaluation based on objective and subjective criteria is introduced for several noise types and several signal to noise conditions. Results revealed the superiority of the proposed methods in comparison with recently perceptual methods not taking the phenomenon MAN into account. We also conceived two speech recognition systems with HTK (Hidden Markov Mo- delsTollkit):theﬁrstoneisbasedonmonophonesandtheotheroneontriphones.The training of these two systems was performed in the absence of noise; this allowed us to assess the impact of the enhancement on the speech recognition system performance in presence of noise. Results show that the best methods regarding objective and even subjective criteria are not necessarily those that return the more robust recognition systems. The latters are in general more sensitive to distorsions. key words : Perceptualenhancement,psycho-acoustic,Wienerﬁltering,frequency masking, musical noise, signal distorsion, MAN phenomenon, subjective and objective tests, speech recognition.