HMMparole-cours
13 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
13 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Reconnaissance de mots isol¶es(utilisation des modµeles HMM)Maurice CharbitOctober 25, 2002Contents1 Modµele de Markov cach¶e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Coe–cients cepstraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1 HMM en reconnaissance de la parole . . . . . . . . . . . . . . . . . . . . . 42.2 Pr¶etraitement du signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Calcul des coe–ents cepstraux . . . . . . . . . . . . . . . . . . . . . . . . 53 Estimation pour un HMM: algorithme EM . . . . . . . . . . . . . . . . . . . . . 73.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2 Formules de re-estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.3 Algorithme Forward-Backward . . . . . . . . . . . . . . . . . . . . . . . . 93.4 Facteur d’¶echelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.5 Initialisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Modµele de Markov cach¶eUne cha^‡ne de Markov homogµene est un processus al¶eatoire Q(n), n ‚ 1, µa valeurs dans unalphabet flni (1;¢¢¢ ;S), tel que P(Q(n) = jjQ(n¡1) = i;Q(n¡2) = q ;¢¢¢ ;Q(1) = q ) =n¡2 1P(Q(n) = jjQ(n¡1) = i) = a ouµ 1• i;j• S. Le terme homogµene fait r¶ef¶erence au fait queija est ind¶ependant de n. Une cha^‡ne de Markov est donc d¶ecrite par la donn¶ee:ij† d’un nombre S d’¶etats num¶erot¶es de 1 µa S,† ...

Informations

Publié par
Nombre de lectures 16
Langue Français

Extrait

Reconnaissancedemotsisol´es (utilisationdesmod`elesHMM)
Maurice Charbit
October
25,
2002
Contents
1Mode`ledeMarkovcach´e................................1 2 Coefficients cepstraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1 HMM en reconnaissance de la parole . . . . . . . . . . . . . . . . . . . . . 4 2.2Pr´etraitementdusignal............................4 2.3 Calcul des coeffients cepstraux . . . . . . . . . . . . . . . . . . . . . . . . 5 3 Estimation pour un HMM : algorithme EM . . . . . . . . . . . . . . . . . . . . . 7 3.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2 Formules de re-estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.3 Algorithme Forward-Backward . . . . . . . . . . . . . . . . . . . . . . . . 9 3.4Facteurd´echelle................................10 3.5 Initialisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1Mod`eledeMarkovcach´e UnechaˆınedeMarkovhomog`eneestunprocessusal´eatoire Q ( n ), n 1,a`valeursdansun alphabet fini (1 , ∙ ∙ ∙ , S ), tel que P ( Q ( n ) = j | Q ( n 1) = i, Q ( n 2) = q n 2 , ∙ ∙ ∙ , Q (1) = q 1 ) = P ( Q ( n ) = j | Q ( n 1) = i ) = a ij ou`1 i, j S .Letermehomoge`nefaitre´fe´renceaufaitque a ij estinde´pendantde n .UnechaˆınedeMarkovestdoncde´criteparladonne´e: d’un nombre S d´etatsnume´rote´sde1`a S , delaloideprobabilite´initialeΠdelavariableal´eatoire Q (1), Π = ( π 1 , ∙ ∙ ∙ , π S ) avec π i 0 et P i π i = 1, de la matrice A detransitiond´etats,dontle´le´ment a ij repre´sentelaprobabilite´depasser del´etat i ,`auninstantquelconque,`ale´tat j a`linstantsuivant.Onadonc P j a ij = 1. Elled´ependdoncduparam`etre: ν = (Π , A ) (1) Un mod`eledeMarkovcache´ estobtenuenassociantalors`alachaıˆnepre´ce´denteunprocessus de sortie U ( n )delafa¸consuivante: onconsid`ere S processusale´atoires U s ( n ) ( s ∈ { 1 , ∙ ∙ ∙ , S } ), vectoriels de dimension D , ind´ependants,deloisrespectives P ( du ; ρ s ).Enreconnaissancedelaparole,onconsid`ere souvent pour P ( du ; ρ s )unm´elangede P s composantesgaussiennes,dedensit´e: p s ( u ; ρ s ) = cP = X s 1 λ cs (2 π ) D/ 2 (det(Σ cs )) 1 / 2 exp µ 21( u µ cs ) T Σ c s 1 ( u µ cs ) o`u u R D
1
ou` λ cs 0, avec P c λ cs =1,de´signentlesproportionsrespectivesdechaqueme´lange. µ cs est une suite de vecteurs de dimension D et Σ cs une suite de matrices de covariance de dimension D × D . Dans ce cas, ρ s de´signeleparam`etre: ρ s = ( { λ cs } c =1: P s , { µ cs } c =1: P s , { Σ cs } c =1: P s ) (2) leprocessusobserve´estalorsd´enipar U ( n ) = U s ( n ) si Q ( n ) = s .Cequis´ecrit: S U ( n ) = X U s ( n ) 1 ( Q ( n ) = s ) s =1 Unmod`eledeMarkovestdit cache´ (en anglais, Hidden Markov Model ,enabre´ge´ HMM ) si on napasacc`esa`lasuitedese´tatsmaisquelonpeutuniquementobserverleprocessus U ( n ). Dans la suite θ d´esignelensembledesparam`etresdumode`leHMMsoit: θ = {{ ρ s } s =1: S , A, Π } avec les contraintes a ij 0, π i 0, P j a ij = 1 et P i π i = 1. Danslecasou`les U s ( n )sontdesme´langesde P s composantes gaussiennes, ρ s estdonne´par (2). ρ s se simplifie alors si on suppose que les lois sont purement gaussiennes ( P s = 1) et que les matrices Σ s sont diagonales : ρ s = ( µ s 1 , ∙ ∙ ∙ , µ sD , σ s 1 , ∙ ∙ ∙ , σ sD ) Loidese´tats Notonsquelonpeute´crire P ( Q ( n ) = q n | Q ( n 1) = q n 1 ) = P iS =1 P jS =1 a ij 1 ( q n = i, q n 1 = j ) et que P ( Q (1) = q 1 ) = P iS =1 π ( i ) 1 ( q 1 = i ).Enutilisantlidentit´e f ( P i x i 1 ( q = i )) = P i f ( x i ) 1 ( q = i )`alafonctionlogarithme,onobtient: S S log( P ( Q ( n ) = q n | Q ( n 1) = q n 1 ) = X X log( a ij ) 1 ( q n = i, q n 1 = j ) i =1 j =1 et que : S log( P ( Q (1) = q 1 )) = X log( π ( i )) 1 ( q 1 = i ) i =1 Enutilisantlapropri´ete´markoviennedelasuite Q ( n ), on obtient pour la loi conjointe d’une suite de T ´etatslexpression 1 : T 1 P ( Q 1: T = q 1: T ) = Y P ( Q ( t + 1) = q t +1 | Q ( t ) = q t ) P ( Q (1) = q 1 ) t =1 quis´ecritencore: T 1 S S S P ( Q 1: T = q 1: T ) = Y X X a ij 1 ( q t +1 = i, q t = j ) X π ( i ) 1 ( q 1 = i ) t =1 i =1 j =1 i =1 En passant au logarithme, il vient : T 1 S S S log( P ( Q 1: T = q 1: T )) = X X X log( a ij ) 1 ( q t +1 = i, q t = j ) + X log( π ( i )) 1 ( q 1 = i ) (3) t =1 i =1 j =1 i =1 1 la notation Q 1: T = q 1: T signifie Q (1) = q (1) , ∙ ∙ ∙ Q ( T ) = q ( T ). , 2
Loidesobservationsconditionnellementaux´etats Ladensite´deprobabilite´delaloide U ( n )conditionnellement`a Q ( n ) = q n a pour expression : S p ( u | Q n = q n ) = X p s ( u ; ρ s ) 1 ( q n = s ) s =1 En passant au logarithme, il vient : S log( p ( u | Q n = q n )) = X log( p s ( u ; ρ s )) 1 ( q n = s ) s =1 Commeonasuppos´elesloisconditionnellesinde´pendantes,lelogarithmedeladensite´de probabilite´delaloides T observations U (1: T ) conditionnellementa`lasuitedes´etats Q (1: T ) a pour expression : T S log( p ( u 1: T | Q 1: T = q 1: T )) = X X log( p i ( u t ; ρ i )) 1 ( q t = i ) (4) t =1 i =1 Loi conjointe Partantdesexpressions(3)et(4),onende´duitparadditionlelogarithmedelaloiconjointe desobservationsetdese´tats. On rappelle que, si p ( x, ζ )de´signeladensite´deprobabilit´edelaloidunevariableale´atoire X pourleparame`tre ζ , la log-vraisemblance de ζ estde´nieparlog( p ( X, ζ )) vue comme une fonctiondelavariableale´atoire X .Partantdel`a,lalog-vraisemblancedelasuiteconjointe ( U 1: T , Q 1: T ),pourleparam`etre θ , ’´crit s e : ` ( U, Q ; θ ) = log( p ( U 1: T , Q 1: T ; θ )) T S T 1 S S = X X log( p i ( U t ; ρ i )) 1 ( Q t = i ) + X X X log( a ij ) 1 ( Q t +1 = i, Q t = j ) t =1 i =1 t =1 i =1 j =1 S + X log( π ( i )) 1 ( Q 1 = i ) (5) i =1 Conside´ro`´trlameˆmevaleurde θ , R suites d’observations ns a presen , pou {{ U 11: T 1 } , ∙ ∙ ∙ , { U 1 R : T R }} , que nous notons U 11:: TR R . En supposant que les R suites sont inde´pendantesetdedur´eesrespectives( T 1 , ∙ ∙ ∙ , T R ), la log-vraisemblance a pour expression : R ` R ( U 11:: TR R , Q 11:: TR R ; θ ) = X log( p ( U 1 r : T r , Q r 1: T r ; θ )) r =1 R T r S = X X X log( p i ( U tr ; ρ i )) 1 ( Q tr = i ) r =1 t =1 i =1 R T r 1 S S + X X X X log( a ij ) 1 ( Q rt +1 = i, Q rt = j ) r =1 t =1 i =1 j =1 R S + X X log( π ( i )) 1 ( Q 1 r = i ) r =1 i =1
3
(6)
Proble`mesdanslesmode`lesdeMarkovcach´es 1.Etantdonne´euneobservation U 1: T et un ensemble Θ = { θ 1 , ∙ ∙ ∙ , θ M } de M valeurs de θ , quelleestlavaleurdeΘquirendmaximalelavraisemblance.Ceprobl`emeestceluidela reconnaissance d’un mot dans un dictionnaire de M mots. 2.Etantdonn´eeunesuitede R observations U 11:: TR de´terminerlavaleurde θ qui rend maximale lavraisemblance.Ceprobl`emeestceluidelapprentissage . 3.Etantdonn´eeuneobservation U 1: T dedur´ee T , quelle est, pour un valeur de θ donn´ee,la suitedese´tatsquialavraisemblancemaximale.Ceprobl`emeserencontre,parexemple, lors de la reconnaissance de mots en parole continue.
2 Coefficients cepstraux 2.1 HMM en reconnaissance de la parole Lesignalassoci´e`aunmotisol´epeutˆetreconsid´ere´commeunesuitedesonsdebaseagissant commeunalphabet.Unmotestalorscaracte´ris´eparunesuitecaract´eristiquede´le´mentsdecet alphabet.Enabsencedem´emoire,ilsuraitdecomparere´l´ementpar´ele´mentlesconstituants dunmot.Toutefoisenpratiqueonconstatequelaprobabilite´dune´le´ment,danslasuite conside´r´ee,de´penddese´l´ementsquiontpre´ce´de´.Do`ulide´edunemode´lisationmarkovienne delasuitedecese´l´ements. Un premier traitement, dont la valeur est essentielle, est donc d’extraire du signal un nombre faibled´ele´mentspertinentsquisontsuppos´essuivreunmode`leHMM.Deuxapprochessont fr´equemmentutilise´es: approchetemporelle:oneectueunepre´dictionlin´eaire(LPC:linearpredictioncoding) surlesignal.Celaconsiste`aapproximerlesignalparunecombinaisonlin´eairedes p valeurspr´ece´dentes.Onpeutdonce´crireque s ( s ) = a 1 s ( n 1) + ∙ ∙ ∙ + a p s ( n p ) + b ( n ) ou` b ( n )estunprocessusale´atoirequiprendencompteleserreursdumode`le.Onle mode´liseparunbruitblancdepuissance σ 2 Le vecteur θ = ( σ 2 , a 1 , ∙ ∙ ∙ , a p ) est choisi . defac¸on`aminimiser σ 2 .Lasolutionestdonn´eeparles´equationsdeYule-Walker: R (1 , a 1 , ∙ ∙ ∙ , a p ) T = ( σ 2 , 0 , ∙ ∙ ∙ , 0) T qui lie θ a`lamatricedecovariance R du signal s ( n ). Une estimation de R permetdestimerleparame`tre θ caracte´risantlebloc. approchefre´quentielle:lesignalestpass´eparunbancdeltres.Eng´en´erallesltres couvrentlabandedeNyquist,avecunchevauchementad´equate,suivantune´echellenon lin´eaire.Lesplusfr´equemmentutilis´eessontdes´echelleslogarithmiquesanaloguesacelle ` de l’oreille humaine. LespointsdeFFTdelensembledessous-bandesrepre´sententlevecteurdeparam`etresdu bloc.Ilestparfoisint´eressantdeprendrelecepstreplutoˆtquelespectredanslamesure ou`lescoecientscepstrauxsontg´ene´ralementde´corre´l´ees.Celajustielutilisationde matrice diagonale dans le traitement HMM. Nousnouslimiteronsicia`ladeuxi`emeapproche. 2.2Pr´etraitementdusignal Dapr`esleth´eore`mede´chantillonnage,laparoleesttoutdaborde´chantillonn´ee`f´equence a une r F e doubledelafre´quencemaximaleutile.Pourlesessais F e = 48 000Hz. On effectue ensuite une quantification sur b = 8 bits, ce qui donne un rapport signal sur bruit de quantification le´ge`rementinf´erieur`a48dB.
4
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents