Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole, Local and on-the-fly Confidence Measures for Automatic Speech Recognition

De
Publié par

Sous la direction de Jean-Paul Haton, Odile Mella
Thèse soutenue le 09 octobre 2007: Nancy 1
En reconnaissance automatique de la parole, les mesures de confiance tentent d'estimer la confiance qu'on peut accorder au résultat (phonème, mot, phrase) fourni par le moteur de reconnaissance. Dans cette thèse nous proposons des mesures de confiance capables de faire cette estimation dans le cas d'applications nécessitant une reconnaissance grand vocabulaire en flux continu. Nous avons défini deux types de mesure de confiance. Les premières, fondées sur des rapports de vraisemblance, sont des mesures trame-synchrones qui peuvent être calculées au fur et à mesure de la progression du moteur de reconnaissance au sein de la phrase à reconnaître. Les secondes, fondées sur une estimation de la probabilité a posteriori limitée à un voisinage local du mot considéré, nécessitent seulement un court délai avant de pouvoir être calculées. Ces mesures ont été évaluées et comparées à une mesure de l'état de l'art également fondée sur la probabilité a posteriori mais nécessitant la reconnaissance de toute la phrase. Cette évaluation a été faite d'une part dans une tâche de transcription automatique d'un corpus réel d'émissions radiophoniques et en utilisant le critère d'évaluation EER (Equal Error Rate) ; d'autre part dans une tâche de détection de mots clés sur le même corpus. Des performances très proches de celles de la mesure de l'état de l'art ont été obtenues par nos mesures locales avec un délai de moins d'une seconde. Nous avons également intégré l'une de nos mesures trame-synchrones dans le processus de décodage du moteur de reconnaissance afin d'améliorer la solution proposée par le système et ainsi diminuer le taux d'erreur en mots d'environ 6% en relatif.
-Détection de mots clés
In automatic speech recognition, confidence measures aim at estimating the confidence we can give to a result (phone, word, sentence) provided by the speech recognition engine. In this thesis, we propose several confidence measures which are able to provide this estimation for applications using large vocabulary and on-the-fly recognition, as keyword indexation, broadcast news transcription, and live teaching class transcription for hard of hearing childs. We have defined two types of confidence measures. The first, based on likelihood ratio, are frame-synchronous measures which can be computed simultaneously with the recognition process of the sentence. The second ones are based on an estimation of the posterior probability limited to a local neighborhood of the considered word, and need only a short delay before being computed on the sub word graph extracted from the recognition process. These measures were assessed and compared to a state-of-the-art one, which is also based on posterior probability but which requires the recognition of the whole sentence. Two evaluations were performed on a real broadcast news corpus. The first one used the Equal Error Rate criterion in an automatic transcription task. The second evaluation was performed in a keyword spotting task. We achieved performance close to our reference measure with our local measures and a delay of less than one second. We also integrated one of our frame-synchronous measures in the decoding process of the recognition engine in order to improve the solution provided by the system and then to decrease the word error rate. We achieved to decrease the word error rate of around 1%.
Source: http://www.theses.fr/2007NAN10072/document
Publié le : mardi 25 octobre 2011
Lecture(s) : 25
Nombre de pages : 189
Voir plus Voir moins




AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

Toute contrefaçon, plagiat, reproduction illicite encourt une
poursuite pénale.


➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr




LIENS


Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm ´D´epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
Mesures de confiance trame-synchrones
et locales en reconnaissance
automatique de la parole
`THESE
pr´esent´ee et soutenue publiquement le 9 octobre 2007
pour l’obtention du
Doctorat de l’universit´e Henri Poincar´e – Nancy Universit´e
(sp´ecialit´e informatique)
par
Joseph Razik
Composition du jury
Pr´esident : Ren´e Schott Professeur, UHP–LORIA Nancy
Rapporteurs : Jean-Franc¸ois Bonastre Maˆıtre de conf´erences (HDR), LIA–CERI Avignon
G´erard Chollet Directeur de recherche CNRS, ENST–TSI Paris
Examinateurs : Laurent Besacier Maˆıtre de conf´erences (HDR), CLIPS–IMAG Grenoble
Jean-Paul Haton Professeur, UHP–LORIA Nancy (Directeur)
Odile Mella Maˆıtre de conf´erences, UHP–LORIA Nancy (Co-directrice)
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503j'ai
particip
suiv
ts
Remerciemen
Mes
t
remerciemen
sur
ts
érience
v
t
on
tous
t
et

oulu
t
temps
aux
à
p

ersonnes
remercie
don

t
ainsi
les
qui
noms
quelques
son
pages
t
t.
dans
prendre
la
leur
grille
et

er
dessous.
l'exp
Je
de
remercie
de
les
Je
diéren
égalemen
tes
tous
p
que
ersonnes
oubliés

que


y
liron
es


lignes
qui
les
on
qui
t
en
bien
i
v
texte.
1 2 3 4 5
6
7 8
9
10 11
12
13
14
15
16
17 18
19 20 21
22 23
24 25 26
27
28
2946
la
Mark
tal
monde
3.
ec

du
et
t
professionnelle,
n'est
très
ortable,
(trop)
vraimen
impliquée,
aut

ourrait
atten
Remarque
tion
A.4.
au

surmenage
herc

oubliera
7.
F
Ca
p
ne
eut-elle
sert
l'enfumage
à
faire
rien
ec
de
rev
regarder
!
dans
texte
l'équip
la
e
2.
si
indemne
Vézelise
Le
est
eine
passée
!
en
9.
L1
plus
8.
ses
T
en
oujours
n'est
prêt
des
à
15.
aider,
par

18.
son
hartreuse,
nom
elle
l'indique
les
10.
Studio
F
Loria
emme
quand
au
idée
v
ec
olan
Final
t
des
.
il
.
er
.
est
11.
HTML
P
out
etit
sort
meusien
stage
deviendra

Do
endredi

la
13.
le
Sans

eux,
N
je
Mister
ne
jour
serais
tête
pas
son

p
14.
...
Il
des
est
a
étonnan
violon,
t
pratique,
d'a
attrap
v

oir
pas
été
vie
dans
mo
le
pro
même
vien
p
maître
etit
La

ne
a
la
v
il
ec
v
une
y
année
ord
d'écart
a
puis
sur
nale-
Elle
men
plus
t
dit
de
24.
ne

se
a


qu'une
It's
vingtaine
tdo
d'années
t
plus
leur
tard
propre
16.
pas
Un
de
grand
noms.
dadet
rép
qui
en
parle
Horizon
trop
!
fort
T
17.
le
Mon
ne
guide
pas
à
d'un
P
de
ékin
headshot
et
4.
aussi
v
un

p
pas
eu
p
dans
de
la


her,

golf
hinoise
5.
21.

On
6.
a
CVS
quand
Un
même
il
fait
sa
de
en
b
de
elles
p
parties
son
de
ortefeuille,
ping-p

ong
12.
22.
aire
Mais
balades
qu'est
forêt

v
que
un


que
pas

mais
histoire
our
de
er
p
truites,
ouet
n'est
et
t
de
pratique

La
?
p
!
être
25.
délisée

un
Mon.

.
o
.
?
Mon.
Le
.
de
.
19.
Mon.

.
ça
.
v
Monster
pas
Kill
mirab

mais
27.
faut
T
a
out
ec
un
mo
en
ens
tourage
b
sympathique
20.
et
mobile

v
t,
vue
presque
le
une
23.
famille
p
28.
parler
Un
fort
p
elle
eu
au
trop
oir

Quelle
hanceux,
de
même
de
à
viande
la
v
xb
du
o

x
26.
29.
the
P
Coun
aris,
wn
la
Etan

l'auteur
la
dénitions,
tour

Eiel
m'est
et
et
l'ENST
n'est
V
forcémen

aisé
1.
trouv
Je
les
n'ai
Aussi
toujours
grille
pas
onse
les
donnée

annexe
ts,
ii
même
enousse
rdin
mon
ma
iii
jolie
dans
eur
ja
tranquille

qui
A
piv.
.
.
able
.
des
1.6.1.3
matières
.
In
.
tro
.

.
générale
dans
xv
.
Chapitre
.
1
.

.

1.6
d'un
.
système
.
de
.

.
automatique
1.6.2
de
.
la
.
parole
18
1
19
1.1
T
In
.
tro
.

.
.
.
.
de
.
1.6.1
.
.
.
13
.
.
.
1.6.1.2
.
.
.
.
.
.
.
.
.
.
.
.
.
la
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Mo
.
.
.
.
.
.
.
.
.
fonctionnemen
.
.
.
.
.
.
.
.
.
.
.
.
.
e
.
.
2
.
1.2
.

d'optimalité

.
d'un
.
système
.
de
.

.
.
1.6.1.4
.
phrase
.
.
.
.
.
.
.
.
.
.
.
16
.
.
.
.
.
.
.
1.6.3.1
.
.
.
.
.
.
.
mots
.
.
.
.
.
.
.

.
.
2
.
1.3
.
P
.
aramétrisation
.
du
.
signal
.
.
.
.
.
.
.
.
.
.
10
.
de
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
e
.
d'un
.
.
.
.
.
.
.
.
.
de
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Le
.
Viterbi
.
.
3
.
1.3.1
.
Les
.
paramètres
.
MF
.
CC

.
Bellman
.
.
.
.
.
.
.
.
.
de
.
.
.
.
.
.
.
.
.
.
.
.
.
de
.

.
.
.
.
.
.
.
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Résultats
.
.
.
.
4
.
1.4
.
Mo
.
délisation
.
de
.
la
phrases
parole
.

.
Mo
.
délisation
.
acoustique
.
.
.
.
Graphe
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Réseau
.
.
.
.
.
.
.
.
.
.
.
.
5
.
1.4.1
.
Mo
.
dèles
.
de
.
Mark
.
o
.
v
.

.
hés
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.5.2
.
dèle
.
langage
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
5

1.4.2
de
Appren
t
tissage
moteur
des

mo
.
dèles
.
de
.
Mark
.
o
.
v
.

12
hés
L'algorithme
.
Viterbi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.6.1.1
6

1.4.2.1
de
L'algorithme
.
de
.
Baum
.
et
.
W
.

.
h
.
.
.
.
.
.
.
.
.
.
.
.
13
.
Le
.
e
.
de
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
7
L'algorithme
1.4.2.2
Viterbi
La
.
métho
.
de
.
forw
.
ard
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
.
Algorithme
.
Viterbi
.
le
.
d'une
.
.
.
.
.
.
.
.
.
.
.
15
.
L'algorithme
.
.
.
.
.
.
.
.
.
.
.
.
9
.
1.4.2.3
.
La
.
métho
.
de
.
bac
.
kw
.
ard
.
.
.
.
.
.
.
.
1.6.3
.
de
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
.
N-meilleures
.
.
.
.
.
.
9
.
1.5
.
Lexique
.
et
.
mo
.
dèle
.
de
.
langage
.
.
.
.
.
.
1.6.3.2
.
de
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.6.3.3
.
de
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
.
1.5.1
.
Lexique
.
.
v
.
.
∗A.
.
.
able
2.3.6
des
.
matièr
.
es
.
1.7
.
Conclusion
.
.
.
.
.
.
.
.
.
.
39
.
n-meilleures
.
système
.
.
.
.
.
.
.
2.3.3.2
.
mot
.
.
.
rapp
.
.
.
.
.
.
.
.
.
.
.
.
.
graphes
.
.
.

.
.
.
33
.
.
.
séman
.
.
.
laten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
yp
.
.
.
de
21
.
Chapitre
dèle
2
.
Mesures
.
de
.

.
2.1
.
In
osteriori
tro
41

.
.
b
.
.
.
.
.
44
.
.
.
.
.
.
.
.
.
mo
.
.
.
.
.
.
.
taxiques
.
.
.
.
.
2.3.3.1
.
.
.
.
.
.
.
.
.
.
.
.
.
36
.
.
.
.
.
.
.
Autres
.
.
.
.
.
.
.
Mesures
.

.
.
.
2.3.5.1
.
.
.
.
.
.
.
38
.
.
25
.
2.2
.
Exemples
dèle
d'applications
.
et
.
in
.
térêt
dèle
des
.
mesures
.
de
.


.
.
.
.
.
.
.
les
.
.
.
.
.
sur
.
.
.
Mesures
.
l'algorithme
.
.
.
.
26
.
2.2.1
.

Mesure
de
.
la
sur
parole
.
:
45
transcription
.
.
.
.
.
.
.
.
.
.
.
.
Repli
.
de
.
.
.
.
.
.
.
.
.
.
.
2.3.3
.
et
.
.
.
.
.
.
.
.
26
.
2.2.2
.

séman
des
.
mots
.
hors
.
v
.
o
.

.
.
m
.
.
.
.
.
.
.
.
.
.
.
.
.
Catégorie
.
.
.
.
.
.
.
.
.
.
.
.
.
37
.
empiriques
.
.
.
.
.
.
.
.
.
.
27
.
2.2.3
37

sur
de
de
mots
.

.
.
.
.
.
.
ests
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Rapp
.

.
.
.
.
.
.
.
.
.
.
.
2.3.5.3
.
An
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.5.4
.
.
.
.
.
.
27
.
2.2.4
.
Dialogue
.

.
hine
Mo
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
fondées
.
a
.
.
.
.
.
.
.
.
.
Mesures
.
liste
.
.
.
.
.
42
.
sur
.
mots
.
forwar
.
d
.
.
.
.
.
.
.
.
.
.
29
.
2.2.5
.
Appren
42
tissage

semi-sup

ervisé
.
.
Mesures
.
réseaux
.
.
.
.
.
.
.
T
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.2.2
.
du
.
dèle
.
langage
.
.
.
.
.
.
29
.
2.2.6
.
A
.
daptation
.
.
.
.
.
.
.
.
34
.
Critères
.
tiques
.
syn
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
.
Analyse
.
tique
.
te
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
.
Information
.
utuelle
31
.
2.3
.
Mesures
.
de
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.3.3
.
d'un
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.4
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
.
2.3.1
.
Critères
.
non
.
pr
2.3.5
ob
fondées
abilistes
le
.
ort
.
vraisem
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
.
T
.
d'h
.
othèse
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.5.2
32
ort
2.3.1.1
vraisem
Stabilité
.
acoustique
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
.
Mo
.
/
.
ti-Mo
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
39
2.3.1.2
Mo
Densité
générique
d'h
.
yp
.
othèses
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.5.5
.
dèles
.
étitifs
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
40
2.3.1.3
Mesures
Dép
sur
endance
probabilité
des
p
mots
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.6.1
.
fondées
.
la
.
de
.
phrases
.
.
.
.
.
.
.
.
.
2.3.6.2
.
fondées
.
les
.
de
.
et
.
de
.
d-
.
ackwar
33
.
2.3.2
.
Critères
.
relatifs
.
au
.
mo
.
dèle
.
de
.
langage
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.6.3
.
de
.
du
.
de
.
Julius
.
.
.
.
.
2.3.6.4
.
fondées
.
les
.
de
.
.
.
.
33
.
2.3.2.1
.
Le
.
mo
.
dèle
vi
de
langage.

.

.
des
.
mesures
de
fondées
.
sur
.
une
.
estimation
.
de
.
la
.
pro-
.
babilité
.
a
Implan
p
.
osteriori
.
.
.
.

.
dans
.
61
.

.
.
.
.
.
.
.
.
.

.
sur
.
.
.
.
.
.
.
visées
.
.
.
58
.
.
.

.
.
.
.
.
.
.
.
.
mesures
.
de
46
.
2.3.7
.
Com
.
binaison
3.2
de
.
mesures
.
de
.

o
.
.
.
la
.
.
.
.
.
.
.
.
.
fondée
.
.
.
.
.
.
.
l'ensem
.
.
.
.
.
.
.
.
.
.
.
.
.
d'émissions
.
.
.
.
46
3.1.1.2
2.3.7.1

Com
.
binaisons
3.1.1.3
de
.
mesures
.
et
.
d'heuristiques
mesures
.

.
.
.

.
.
.
yp
.
.
.
.
.

.
.
.
.
.
niv
.
.
46
.
2.3.7.2
.
Com
.
binaison
.
de
.
systèmes
3.2.1
de
ble

.
.
64
.
.
.
.
.
.
.
3.2.3
.
.
.
.
.
65
.
helle
.
.
.
.
.
66
47
.
2.4
.
Métho
.
des
trigramme
d'év
.
aluation
.
.
.
.
.
.
.
.
.
.
69
.
.
.
.
.
.
.
.
.
3.1.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
T
.
.
.
.
.
.
.
.
.
.
.
.
.

.
salle
.
.
.
.
.
.
.
.
.
de
.
.
48
.
2.4.1
.
T
.
aux
.
d'égale
.
erreur
3.1.2
.

.
but
.
?
.
.
.
.
.
61
.
de
.

.
.
.
Quels
.
de
.
?
.
.
.
.
.
.
.
62
.
p
.
mesures
.
.
.
.
.
3.1.2.4
.
à
.
?
.
.
.
.
.
.
.
.
.
trame-sync
.
.
.
.
.
.
48
.
2.4.2
.
T
.
aux
.
d'erreur
.
de
des

de
.
.
.
.
.
.
.
.
.
Gestion
.
m
.
.
.
.
.
.
.
.
.
.
.
.
.
fondée
.
unigramme
.
.
.
.
.
.
.
.
.
In
.

.
.
.
.
.
.
.
.
.
.
.
.
.
Mesure
50
probabilité
2.4.3
.
En
.
tropie
.

.
normalisée
3.2.6
.
la
.
.
.
.
.
.
.
.
.
67
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Construction
.
.
.
.
.
.
.
.
.
.
.
vii
.
2.3.6.5
.
.
.
58
.
Applications
50
.
2.4.4
.
Co
.

.
t
.
de
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.1.1.1
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
.
T
.
de
.
en
.
de
.
.
51
.
2.4.5
.
Rapp
.
el
.
/
.
Précision
.
.
59
.

.
mots
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
.
Nos
.
de
.
:
.
quel
.
?
.
t
.
.
.
.
.
.
.
.
.
.
.
.
.
3.1.2.1
.

.
nos
52
de
2.4.6
.
Syn
.
thèse
.
.
3.1.2.2
.
t
.
es
.
mesures
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.1.2.3
.
d'information
.
our
.
les
.
.
.
.
.
.
.
.
.
.
.
62
.
Mesures
.

.
quel
.
eau
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
.
Mesures
53
hrones
2.5
.
Quelques
.
résultats
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
.
Dénition
.
mots
.
ts
.
l'ensem
.
69
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.2.2
.
des
.

.
ultiples
.
.
.
.
.
.
.
.
.
.
.
.
53
.
2.6
.
Conclusion
.
.
.
.
.
.
64
.
Mesure
.
sur
.
probabilité
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.2.4
.
tro
.
de
.
d'éc
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.2.5
.
fondée
.
la
.
bigramme
.
.
.
.
.
.
.
.
.
.
54
.
Chapitre
.
3
.
Prop
66
ositions
Mesure
de
sur
nouv
probabilité
elles
.
mesures
.
de
.

.
3.1
.
Ob
.

.
.
.
.
.
.
3.2.7
.
tation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.2.7.1
.
de
.
ble
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
E
bE

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.

Diffusez cette publication

Vous aimerez aussi