1Mod`eledeMarkovcach´e UnechaˆınedeMarkovhomog`eneestunprocessusal´eatoire Q ( n ), n ≥ 1,a`valeursdansun alphabet fini (1 , ∙ ∙ ∙ , S ), tel que P ( Q ( n ) = j | Q ( n − 1) = i, Q ( n − 2) = q n − 2 , ∙ ∙ ∙ , Q (1) = q 1 ) = P ( Q ( n ) = j | Q ( n − 1) = i ) = a ij ou`1 ≤ i, j ≤ S .Letermehomoge`nefaitre´fe´renceaufaitque a ij estinde´pendantde n .UnechaˆınedeMarkovestdoncde´criteparladonne´e: • d’un nombre S d’´etatsnume´rote´sde1`a S , • delaloideprobabilite´initialeΠdelavariableal´eatoire Q (1), Π = ( π 1 , ∙ ∙ ∙ , π S ) avec π i ≥ 0 et P i π i = 1, • de la matrice A detransitiond’´etats,dontl’e´le´ment a ij repre´sentelaprobabilite´depasser del’´etat i ,`auninstantquelconque,`al’e´tat j a`l’instantsuivant.Onadonc P j a ij = 1. Elled´ependdoncduparam`etre: ν = (Π , A ) (1) Un mod`eledeMarkovcache´ estobtenuenassociantalors`alachaıˆnepre´ce´denteunprocessus de sortie U ( n )delafa¸consuivante: • onconsid`ere S processusale´atoires U s ( n ) ( s ∈ { 1 , ∙ ∙ ∙ , S } ), vectoriels de dimension D , ind´ependants,deloisrespectives P ( du ; ρ s ).Enreconnaissancedelaparole,onconsid`ere souvent pour P ( du ; ρ s )unm´elangede P s composantesgaussiennes,dedensit´e: p s ( u ; ρ s ) = cP = X s 1 λ cs (2 π ) − D/ 2 (det(Σ cs )) − 1 / 2 exp µ − 21( u − µ cs ) T Σ c − s 1 ( u − µ cs ) ¶ o`u u ∈ R D
1
ou` λ cs ≥ 0, avec P c λ cs =1,de´signentlesproportionsrespectivesdechaqueme´lange. µ cs est une suite de vecteurs de dimension D et Σ cs une suite de matrices de covariance de dimension D × D . Dans ce cas, ρ s de´signeleparam`etre: ρ s = ( { λ cs } c =1: P s , { µ cs } c =1: P s , { Σ cs } c =1: P s ) (2) • leprocessusobserve´estalorsd´efinipar U ( n ) = U s ( n ) si Q ( n ) = s .Cequis’´ecrit: S U ( n ) = X U s ( n ) 1 ( Q ( n ) = s ) s =1 Unmod`eledeMarkovestdit cache´ (en anglais, Hidden Markov Model ,enabre´ge´ HMM ) si on n’apasacc`esa`lasuitedese´tatsmaisquel’onpeutuniquementobserverleprocessus U ( n ). Dans la suite θ d´esignel’ensembledesparam`etresdumode`leHMMsoit: θ = {{ ρ s } s =1: S , A, Π } avec les contraintes a ij ≥ 0, π i ≥ 0, P j a ij = 1 et P i π i = 1. Danslecasou`les U s ( n )sontdesme´langesde P s composantes gaussiennes, ρ s estdonne´par (2). ρ s se simplifie alors si on suppose que les lois sont purement gaussiennes ( P s = 1) et que les matrices Σ s sont diagonales : ρ s = ( µ s 1 , ∙ ∙ ∙ , µ sD , σ s 1 , ∙ ∙ ∙ , σ sD ) Loidese´tats Notonsquel’onpeute´crire P ( Q ( n ) = q n | Q ( n − 1) = q n − 1 ) = P iS =1 P jS =1 a ij 1 ( q n = i, q n − 1 = j ) et que P ( Q (1) = q 1 ) = P iS =1 π ( i ) 1 ( q 1 = i ).Enutilisantl’identit´e f ( P i x i 1 ( q = i )) = P i f ( x i ) 1 ( q = i )`alafonctionlogarithme,onobtient: S S log( P ( Q ( n ) = q n | Q ( n − 1) = q n − 1 ) = X X log( a ij ) 1 ( q n = i, q n − 1 = j ) i =1 j =1 et que : S log( P ( Q (1) = q 1 )) = X log( π ( i )) 1 ( q 1 = i ) i =1 Enutilisantlapropri´ete´markoviennedelasuite Q ( n ), on obtient pour la loi conjointe d’une suite de T ´etatsl’expression 1 : T − 1 P ( Q 1: T = q 1: T ) = Y P ( Q ( t + 1) = q t +1 | Q ( t ) = q t ) P ( Q (1) = q 1 ) t =1 quis’´ecritencore: T − 1 S S S P ( Q 1: T = q 1: T ) = Y X X a ij 1 ( q t +1 = i, q t = j ) X π ( i ) 1 ( q 1 = i ) t =1 i =1 j =1 i =1 En passant au logarithme, il vient : T − 1 S S S log( P ( Q 1: T = q 1: T )) = X X X log( a ij ) 1 ( q t +1 = i, q t = j ) + X log( π ( i )) 1 ( q 1 = i ) (3) t =1 i =1 j =1 i =1 1 la notation Q 1: T = q 1: T signifie Q (1) = q (1) , ∙ ∙ ∙ Q ( T ) = q ( T ). , 2
Loidesobservationsconditionnellementaux´etats Ladensite´deprobabilite´delaloide U ( n )conditionnellement`a Q ( n ) = q n a pour expression : S p ( u | Q n = q n ) = X p s ( u ; ρ s ) 1 ( q n = s ) s =1 En passant au logarithme, il vient : S log( p ( u | Q n = q n )) = X log( p s ( u ; ρ s )) 1 ( q n = s ) s =1 Commeonasuppos´elesloisconditionnellesinde´pendantes,lelogarithmedeladensite´de probabilite´delaloides T observations U (1: T ) conditionnellementa`lasuitedes´etats Q (1: T ) a pour expression : T S log( p ( u 1: T | Q 1: T = q 1: T )) = X X log( p i ( u t ; ρ i )) 1 ( q t = i ) (4) t =1 i =1 Loi conjointe Partantdesexpressions(3)et(4),onende´duitparadditionlelogarithmedelaloiconjointe desobservationsetdese´tats. On rappelle que, si p ( x, ζ )de´signeladensite´deprobabilit´edelaloid’unevariableale´atoire X pourleparame`tre ζ , la log-vraisemblance de ζ estde´finieparlog( p ( X, ζ )) vue comme une fonctiondelavariableale´atoire X .Partantdel`a,lalog-vraisemblancedelasuiteconjointe ( U 1: T , Q 1: T ),pourleparam`etre θ , ’´crit s e : ` ( U, Q ; θ ) = log( p ( U 1: T , Q 1: T ; θ )) T S T − 1 S S = X X log( p i ( U t ; ρ i )) 1 ( Q t = i ) + X X X log( a ij ) 1 ( Q t +1 = i, Q t = j ) t =1 i =1 t =1 i =1 j =1 S + X log( π ( i )) 1 ( Q 1 = i ) (5) i =1 Conside´ro`´trlameˆmevaleurde θ , R suites d’observations ns a presen , pou {{ U 11: T 1 } , ∙ ∙ ∙ , { U 1 R : T R }} , que nous notons U 11:: TR R . En supposant que les R suites sont inde´pendantesetdedur´eesrespectives( T 1 , ∙ ∙ ∙ , T R ), la log-vraisemblance a pour expression : R ` R ( U 11:: TR R , Q 11:: TR R ; θ ) = X log( p ( U 1 r : T r , Q r 1: T r ; θ )) r =1 R T r S = X X X log( p i ( U tr ; ρ i )) 1 ( Q tr = i ) r =1 t =1 i =1 R T r − 1 S S + X X X X log( a ij ) 1 ( Q rt +1 = i, Q rt = j ) r =1 t =1 i =1 j =1 R S + X X log( π ( i )) 1 ( Q 1 r = i ) r =1 i =1
3
(6)
Proble`mesdanslesmode`lesdeMarkovcach´es 1.Etantdonne´euneobservation U 1: T et un ensemble Θ = { θ 1 , ∙ ∙ ∙ , θ M } de M valeurs de θ , quelleestlavaleurdeΘquirendmaximalelavraisemblance.Ceprobl`emeestceluidela reconnaissance d’un mot dans un dictionnaire de M mots. 2.Etantdonn´eeunesuitede R observations U 11:: TR de´terminerlavaleurde θ qui rend maximale lavraisemblance.Ceprobl`emeestceluidel’ apprentissage . 3.Etantdonn´eeuneobservation U 1: T dedur´ee T , quelle est, pour un valeur de θ donn´ee,la suitedese´tatsquialavraisemblancemaximale.Ceprobl`emeserencontre,parexemple, lors de la reconnaissance de mots en parole continue.
2 Coefficients cepstraux 2.1 HMM en reconnaissance de la parole Lesignalassoci´e`aunmotisol´epeutˆetreconsid´ere´commeunesuitedesonsdebaseagissant commeunalphabet.Unmotestalorscaracte´ris´eparunesuitecaract´eristiqued’e´le´mentsdecet alphabet.Enabsencedem´emoire,ilsuffiraitdecomparere´l´ementpar´ele´mentlesconstituants d’unmot.Toutefoisenpratiqueonconstatequelaprobabilite´d’une´le´ment,danslasuite conside´r´ee,de´penddese´l´ementsquiontpre´ce´de´.D’o`ul’ide´ed’unemode´lisationmarkovienne delasuitedecese´l´ements. Un premier traitement, dont la valeur est essentielle, est donc d’extraire du signal un nombre faibled’´ele´mentspertinentsquisontsuppos´essuivreunmode`leHMM.Deuxapprochessont fr´equemmentutilise´es: • approchetemporelle:oneffectueunepre´dictionlin´eaire(LPC:linearpredictioncoding) surlesignal.Celaconsiste`aapproximerlesignalparunecombinaisonlin´eairedes p valeurspr´ece´dentes.Onpeutdonce´crireque s ( s ) = a 1 s ( n − 1) + ∙ ∙ ∙ + a p s ( n − p ) + b ( n ) ou` b ( n )estunprocessusale´atoirequiprendencompteleserreursdumode`le.Onle mode´liseparunbruitblancdepuissance σ 2 Le vecteur θ = ( σ 2 , a 1 , ∙ ∙ ∙ , a p ) est choisi . defac¸on`aminimiser σ 2 .Lasolutionestdonn´eeparles´equationsdeYule-Walker: R (1 , a 1 , ∙ ∙ ∙ , a p ) T = ( σ 2 , 0 , ∙ ∙ ∙ , 0) T qui lie θ a`lamatricedecovariance R du signal s ( n ). Une estimation de R permetd’estimerleparame`tre θ caracte´risantlebloc. • approchefre´quentielle:lesignalestpass´eparunbancdefiltres.Eng´en´erallesfiltres couvrentlabandedeNyquist,avecunchevauchementad´equate,suivantune´echellenon lin´eaire.Lesplusfr´equemmentutilis´eessontdes´echelleslogarithmiquesanaloguesacelle ` de l’oreille humaine. LespointsdeFFTdel’ensembledessous-bandesrepre´sententlevecteurdeparam`etresdu bloc.Ilestparfoisint´eressantdeprendrelecepstreplutoˆtquelespectredanslamesure ou`lescoefficientscepstrauxsontg´ene´ralementde´corre´l´ees.Celajustifiel’utilisationde matrice diagonale dans le traitement HMM. Nousnouslimiteronsicia`ladeuxi`emeapproche. 2.2Pr´etraitementdusignal D’apr`esleth´eore`med’e´chantillonnage,laparoleesttoutd’aborde´chantillonn´ee`f´equence a une r F e doubledelafre´quencemaximaleutile.Pourlesessais F e = 48 000Hz. On effectue ensuite une quantification sur b = 8 bits, ce qui donne un rapport signal sur bruit de quantification le´ge`rementinf´erieur`a48dB.