Thèse présentée à l’Ecole Nationale Supérieure des Télécommunications de Bretagne EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ DE BRETAGNE SUD EN COTUTELLE AVEC L’UNIVERSITÉ MOHAMED-V-AGDALDE RABAT pour obtenir le grade de :Docteur de Télécom Bretagne mention : Traitement du Signal et T´el´ecommunications par Asmaa Amehraye Débruitage perceptuel de la parole Soutenue le 15 mai 2009 devant la commission d’Examen : Composition du Jury : Président : Jacques FROMENT, Professeur à l’UBS, Vannes Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1 Yves LAPRIE, directeur de recherche au CNRS, Nancy Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal Ahmed TAMTAOUI, professeur à l’INPT, Rabat Samir SAOUDI, professeur à Télécom Bretagne, Brest Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest Christophe BEAUGEANT, ingénieur de recherche, INFINEON`A la m´emoire de mon p`ereRemerciements Je tiens d’abord `a remercier Dominique PASTOR pour avoir encadr´e cette th`ese et pour m’avoir encourag´ee, motiv´ee et conseill´ee tout au long de mes ann´ees de th`ese sans oublier les heures de discussions fructueuses au t´el´ephones lors des p´eriodes de th`ese pass´ees au Maroc. Je remercie ´egalement le professeur Driss Aboutajdine qui as cru en mes comp´etences jusqu’au bout et m’a propos´e cette th`ese en cotutelle pour la premi`ere fois entre l’Universit´e MohamedV-Agdal et T´el´ecom Bretagne. `Je remercie vivement les ...
Thèse
présentée à
l’Ecole Nationale Supérieure des
Télécommunications de Bretagne
EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ
DE BRETAGNE SUD
EN COTUTELLE AVEC L’UNIVERSITÉ
MOHAMED-V-AGDALDE RABAT
pour obtenir
le grade de :Docteur de Télécom Bretagne
mention : Traitement du Signal et T´el´ecommunications
par
Asmaa Amehraye
Débruitage perceptuel de la parole
Soutenue le 15 mai 2009 devant la commission d’Examen :
Composition du Jury :
Président : Jacques FROMENT, Professeur à l’UBS, Vannes
Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1
Yves LAPRIE, directeur de recherche au CNRS, Nancy
Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal
Ahmed TAMTAOUI, professeur à l’INPT, Rabat
Samir SAOUDI, professeur à Télécom Bretagne, Brest
Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest
Christophe BEAUGEANT, ingénieur de recherche, INFINEON`A la m´emoire de mon p`ereRemerciements
Je tiens d’abord `a remercier Dominique PASTOR pour avoir encadr´e cette th`ese
et pour m’avoir encourag´ee, motiv´ee et conseill´ee tout au long de mes ann´ees de th`ese
sans oublier les heures de discussions fructueuses au t´el´ephones lors des p´eriodes de
th`ese pass´ees au Maroc.
Je remercie ´egalement le professeur Driss Aboutajdine qui as cru en mes
comp´etences jusqu’au bout et m’a propos´e cette th`ese en cotutelle pour la premi`ere
fois entre l’Universit´e MohamedV-Agdal et T´el´ecom Bretagne.
`Je remercie vivement les professeurs R´egine LE BOUQUIN JEANNES et Yves
LAPRIE pour avoir accept´e de rapporter cette th`ese. Merci pour toutes vos remarques
et questions qui ont permis de mettre plus en valeur ce document de synth`ese.
Mes remerciements vont ´egalement aux membres de mon jury : M. Jacques FRO-
MENT qui a accept´e de pr´esider la soutenance, M. Ahmed TAMTAOUI et M. Chris-
tophe BEUAGEANT pour l’int´erˆet qu’ils ont port´e `a mes travaux et finalement le
professeur Samir SAOUDI pour avoir accept´e de diriger cette th`ese et la mener `a
terme surtout administrativement.
Je garde un souvenir chaleureux de l’´equipe des permanents et des th´esards du
d´epartement Signal et Communications pour leur esprit de famille. Je les remercie
pour tous les bons moments pass´es ensemble.
Un grand merci `a tous les volontaires (permanents, th´esards et stagiaires), des
diff´erents d´epartements de T´el´ecom Bretagne, qui se sont pris la peine de passer une
heure et demi de tests d’´ecoute afin que je puisse reproduire une analyse subjective de
mes algorithmes.
Merci `a tout ceux que j’ai connu de l’ensemble du personnel administratif et tech-
nique de TELECOM Bretagne pour leur gentillesse, disponibilit´e et efficacit´e.
Une pens´ee profonde et affectueuse `a ma ch`ere mama qui m’a toujours soutenu et
fait confiance, sans elle et feu mon p`ere, je n’aurais jamais pu partir loin de mon pays
et faire cette th`ese. Merci infiniment pour vos pri`eres.
Mes vives remerciements `a mes soeurs et `a mon fr`ere pour leur solidarit´e, leur
encouragements, leur patience et leur amour. Sachez que votre soutien est bien plus
puissant que vous ne l’imaginez.
A mon rayon de soleil qui a ´eclair´e le ciel gris de la Bretagne, qui m’a encourag´ee,
soutenue et motiv´ee sans cesse pour arriver au bout de cette th`ese, un grand merci
pour tout.R´esum´e
Depuis une dizaine d’ann´ee, l’investigation des m´ethodes de d´ebruitage de la parole
a permis d’atteindre des r´esultats spectaculaires. Cependant, certaines probl´ematiques
etquestionsrestentouvertes.Unedecesprobl´ematiquesestdeparvenir`auncompromis
entrelar´eductiondubruit,ladistorsiondusignaletlebruitr´esidueletmusical.L’essor
des m´ethodes bas´ees sur des notions perceptuelles, essentiellement le ph´enom`ene de
masquage fr´equentiel, a suscit´e beaucoup d’int´erˆet ces derni`eres d´ecennies. L’objectif
de base des filtres perceptuels est de r´eduire le bruit sans apporter plus de distorsion
sur le signal de parole. L’une des fac¸ons d’´eviter des distorsions superflues est alors
d’op´erer uniquement dans les fr´equences ou` le bruit est perceptuellement significatif.
Cependant, en proc´edant ainsi, le bruit initialement inaudible, et par cons´equent non
pris en compte par le d´ebruitage perceptuel, risque de devenir audible et gˆenant si
les masquants de ce bruit sont filtr´es. C’est ce que l’on nomme dans cette th`ese, le
ph´enom`ene MAN (Maskee to Audible Noise).
Lescontributionsmajeuresdecetteth`esesontenpremierlieu,demettreen´evidence
ce ph´enom`ene qui, `a notre connaissance, n’a jamais encore ´et´e d´ecrit et de montrer ses
effets secondaires. Ensuite, nous proposons une approche ´el´ementaire pour rem´edier
au ph´enom`ene MAN grˆace `a un double filtrage att´enuant le bruit dans toutes les
fr´equences pour ´eviter la production de ce ph´enom`ene. Nous proposons une deuxi`eme
approche bas´ee sur un filtre optimal, dit anti-MAN, au sens d’un crit`ere s´electif par
zone de fr´equence. A travers ce crit`ere, nous d´efinissons la zone du ph´enom`ene MAN
et pouvons ainsi att´enuer le bruit y contribuant.
Des ´evaluations comparatives sur des crit`eres objectifs et subjectifs de qualit´e sont
pr´esent´ees pour plusieurs types de bruit et de rapport signal `a bruit. Les r´esultats ont
r´ev´el´elasup´eriorit´edesm´ethodespropos´eesdanscetravailparrapport`adesm´ethodes
perceptuelles r´ecentes ne consid´erant pas le ph´enom`ene MAN.
Dans la suite exp´erimentale de ce travail, nous avons conc¸u deux syst`emes de re-
connaissance de la parole avec HTK (Hidden Markov Models); l’un est bas´e sur des
monophonesetl’autresurdestriphones.Laphased’apprentissagedecesdeuxsyst`emes
s’est d´eroul´ee en absence du bruit; ceci nous apermis d’´evaluer l’impact du d´ebruitage
sur les performances de ces syst`emes en pr´esence de bruit. Les r´esultats montrent que
les m´ethodes qui se distinguent par rapport `a des crit`eres objectifs et mˆeme subjectifs
ne sont pas forc´ement celles qui rendent les syst`emes de reconnaissance plus robustes.
Ces derniers sont g´en´eralement plus sensibles aux distorsions vu que le destinataire
final est une machine.
Mots cl´es : D´ebruitage perceptuel, psychoacoustique, filtrage de Wiener, mas-
quagefr´equentiel,bruitmusical,distorsiondusignal,ph´enom`ene MAN,testssubjectifs
et objectifs, reconnaissance de la parole.Abstract
Speech enhancement has been extensively investigated in the last years giving rise
to spectacular results. However, some problems and questions remain open. One of
these problems is to reach a compromise between noise reduction, signal distorsion
and residual musical noise. The development of methods based on perceptual notions,
mainly on the masking phenomenon, gained a lot of interest these last decades. The
basic objective of perceptual filters is to reduce noise without introducing much signal
distorsion.Onewaytoavoidsuperfluousdistorsionisthentooperateonlyinfrequencies
wherenoiseisperceptuallysignificant.However,bysoprocessing,theinitiallyinaudible
noise, and as such not taken into account by the perceptual denoising, can become
audible and annoying if its maskers are filtered. This is what we call in this thesis the
MAN phenomenon (Maskee to Audible Noise).
Themaincontributionsofthisthesisarethefollowingones.Webeginbyillustrating
the MAN phenomenon, which, to our knowledge, has never been presented before.
We show the side effects of this phenomenon. Then, we propose a basic approach to
correct the MAN phenomenon thanks to a double filtering that attenuates noise in all
frequencies to avoid the production of this phenomenon.
We propose a second approach based on an optimal filter called anti-MAN filter.
It is frequency selective. In this criterion, we define the MAN phenomenon location to
attenuate the noise contributing to it.
Comparative evaluation based on objective and subjective criteria is introduced
for several noise types and several signal to noise conditions. Results revealed the
superiority of the proposed methods in comparison with recently perceptual methods
not taking the phenomenon MAN into account.
We also conceived two speech recognition systems with HTK (Hidden Markov Mo-
delsTollkit):thefirstoneisbasedonmonophonesandtheotheroneontriphones.The
training of these two systems was performed in the absence of noise; this allowed us to
assess the impact of the enhancement on the speech recognition system performance
in presence of noise. Results show that the best methods regarding objective and even
subjective criteria are not necessarily those that return the more robust recognition
systems. The latters are in general more sensitive to distorsions.
key words : Perceptualenhancement,psycho-acoustic,Wienerfiltering,frequency
masking, musical noise, signal distorsion, MAN phenomenon, subjective and objective
tests, speech recognition.