Optimisation du procede de creation de voix en synthese par selection., Optimised voice creation for unit-selection synthesis

Thesee - Didier Cadic

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

187 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sous la direction de Christophe D'alessandro
Thèse soutenue le 10 juin 2011: Paris 11
Cette thèse s'inscrit dans le cadre de la synthèse de parole à partir du texte. Elle traite plus précisément du procédé de création de voix en synthèse par sélection d'unités. L'état de l'art repose pour cela sur l'enregistrement d'un locuteur pendant une à deux semaines, suivant un script de lecture de plusieurs dizaines de milliers de mots. Les 5 à 10 heures de parole collectées sont généralement révisées par des opérateurs humains, pour en vérifier la segmentation phonétique et ainsi améliorer la qualité finale de la voix de synthèse.La lourdeur générale de ce procédé freine considérablement la diversification des voix de synthèse ; aussi en proposons-nous ici une rationalisation. Nous introduisons une nouvelle unité, appelée sandwich vocalique, pour l'optimisation de la couverture des scripts de lecture. Sur le plan phonétique, cette unité offre une meilleure prise en compte des limites segmentales de la synthèse par sélection que les unités traditionnelles (diphones, triphones, syllabes, mots, etc.). Sur le plan linguistique, un nouvel enrichissement contextuel nous permet de mieux focaliser la couverture, sans négliger les aspects prosodiques. Nous proposons des moyens d'accroître le contrôle sur les phrases du script lecture, tant dans leur longueur que dans leur pertinence phonétique et prosodique, afin de mieux anticiper le contenu du corpus de parole final et de rendre automatisable la tâche de segmentation. Nous introduisons également une alternative à la stratégie classique de condensation de corpus en mettant au point un algorithme semi-automatique de création de phrases, grâce auquel nous accroissons de 30 à 40% la densité linguistique du script de lecture.Ces nouveaux outils nous permettent d'établir un procédé très efficace de création de voix de synthèse, procédé que nous validons à travers la création et l'évaluation subjective de nombreuses voix. Des scores perceptifs comparables à l'approche traditionnelle sont ainsi atteints dès 40 minutes de parole (une demi-journée d'enregistrement) et sans post-traitement manuel. Enfin, nous mettons à profit ce résultat pour enrichir nos voix de synthèse de diverses composantes expressives, multi-expressives et paralinguistiques.
-Synthèse vocale
-Sélection d'unités
-Script de lecture
-Sandwich vocalique
-Création de phrases
-Évaluation
-Voix
-Expressivité
This work falls within the scope of text-to-speech (TTS) technology. More precisely, focus is on the voice creation process for unit-selection synthesis. In a standard approach, a textual script of several thousands of words is read by a speaker in order to generate approximately 5 to 10 hours of useable speech. The recording time is spread out over one or two weeks and is followed by the considerable task of manually revising the phonetic segmentation for all of the speech.Such a costly and time-consuming process presents a major obstacle to diversifying synthesized voices. In order to increase efficiency in this process, we introduce a new unit, called a vocalic sandwich, to optimize coverage of the recording texts. Phonetically, this unit better addresses the segmental limitations of unit-selection TTS than state-of-the-art units (diphones, triphones, syllables, words...). Linguistically, a new set of contextual symbols focuses the coverage, allowing for more control and consideration of prosody. Practically, in order to automate the segmentation process, better anticipation of the phonetic and prosodic content desired in the final database is required. This is achieved here by increasing the readability and consistency of each sentence included in the script. As a side, these properties also help to facilitate the reading stage. Furthermore, as an alternative to the classic corpus condensation, a semi-automatic sentence building algorithm is developed in this work wherein sentences are built rather than selected from a reference corpus. Ultimately, the sentence building provides access to much denser scripts, specifically allowing for increases in density of between 30 and 40%.In incorporating these new approaches and tools, the voice creation process is made very efficient, as is validated in this work through the preparation and evaluation of numerous synthesized voices. Perceptive scores that are comparable to the traditional process are achieved with 40 minutes of speech (half-day recording) and without any manual post-processing. Finally, we take advantage of these results in order to enhance our synthesized voices with various expressive, multi-expressive and paralinguistic features.
-Text-to-speech
-Unitselection
-Recordingscript
-Vocalicsandwich
-Sentenceconstruction
-Evaluation
-Voice
-Expressiveness
Source: http://www.theses.fr/2011PA112076/document

Sujets

Synthèse vocale

Évaluation

Voix

Expressivité

Informations

Publié par	Thesee
Nombre de lectures	77
Langue	Français
Poids de l'ouvrage	3 Mo

Extrait

t
Moudenc
jury)
o
Souten
d'ordre:
Olivier
2011P
M.
A112076
ylianou
Thèse
juin
de
du
Do
orteur,
ctorat
Sagisak
-
de
Sp
nis
écialité
r
Ph
le
ysique
dev
-
mem
Ecole
:
Do
ëard
ctorale
t

Y
Sciences
(Rapp
et
d'Alessandro
T
M.
ec
Y
hnologies
thèse
de
pa
l'Information
sélection
d
ue
e
10
s
2011
Télécomm
an
unications
les
et
bres
des
Jury
Systèmes
M.

Bo
présen
(Rapp
tée
présiden
par
du
Didier
M.
Cadic
oshinori
Optimisation
a
du
orteur)
pro
Christophe
cédé
(Directeur
de
thèse)
création
Thierry
de
M.
v
an
oix
St
en
syn
N
tel-00608610, version 1 - 22 Sep 2011a
et
Lannion
préparée
t
au
Pierre
sein
herc
des
elopp
Orange
oice
Labs
en
Lab
22
oratoire
CEDEX
A
he
d
dév
v
emen
ertising
V
Solutions,
2
Audi
v
ence
ue
and
Marzin
Proling
307
Unité
rec
de
Thèse
tel-00608610, version 1 - 22 Sep 2011oix,
de
sons
Cette
ost-traitemen
thèse
proso
s'inscrit
g
dans
v
le
x
cadre
phrases
de
parole
la
de
syn
de
thèse
tra
de
ainsi
parole
enric
à
d'unités,
partir
ens
du
longueur
texte.
er
Elle
he
traite
stratégie
plus
t
précisémen
30
t
ermetten
du
pro
pro
l'év
cédé
à
de
parole
création
tt
de
de
v
Mots-clefs
oi
calique,
x
osons
en
con
syn
tan
thèse
p
par
mi
sélection
u
d'unités.
rendre
L'état
Nous
de
alternativ
l'art
q
rep
t
ose
de
p
auquel
our
densité
cela
eaux
sur
pro
l'enregistremen
oix
t
nous
d'un
s
lo
e
c
p
u
traditionne
te
40
ur
t)
p
.
e
ce
nd
oix
a
omp
n
ulti-expressiv
t
v
une
sandwic
à
phrases,
deux
Nous
semaine
mo
s
l
,
sur
suiv
script
an
dans
t
dans
un
phonétique
script
an
de
an
lecture
con
de
corpus
plusieurs
et
di
la
zaines
segmen
de
tro
milliers
t
de
à
mots.
ass
Les
de
5
en
à
p
10
algorithme
heures
de
de
âc
parole
accroissons
c
40%
ollectées
du
son
Ces
t
nous
généralemen
d'établir
t
très
révisées
de
par
syn
des
édé
op
alidons
érateurs
e
h
création
umains,
sub
p
nom
our
Des
en
rceptifs
v
c
érier
son
la
ts
segmen
utes
tation
demi-journée
phonétique
sans
et
man
ainsi
nous
améliorer
à
l
p
a
nos
qualité
syn
nale
erses
de
tes
la
es,
v
et
oix
Syn
de
cale,
s
de
yn
v
thèse.
on
La
aluation,
lourdeur
expressivité.
générale
prop
de
des
ce
y
pro
d'accroître
c
e
édé
trôle
freine
les
considérablemen
du
t
lecture,
la
t
div
leur
ersic
que
at
leur
i
ertinence
on
et
des
dique,
v
de
oix
eux
de
ticip
syn
le
thèse
ten
;
du
aussi
de
en
nal
prop
de
osons-nous
automatisable
ici
tâc
une
de
rationalisation.
tation.
No
in
us
dui-
i
égalemen
n
une
tro
e
duisons
la
une
cl
nouv
i
elle
ue
unité,
condensation
app
corpus
elée
mettan

au
s
oin
a
un
n
semi-automatique
d-
création
wic
phrases,
h
r
v
e
o
nous
calique
de
,
à
p
la
our
linguistique
l'optimisation
script
de
lecture.
la
nouv
couv
outils
erture
p
des
t
scripts
un
de
cédé
l
ecace
ecture.
création
Sur
v
le
de
plan
thèse,
phonétique,
c
cette
que
unité
v
ore
à
une
v
meilleure
r
prise
la
en
et
compte
aluation
des
jectiv
limites
de
segmen
breuses
tale
oix.
s
scores
de
e
la
comparables
syn
l'appro
thèse
he
par
lle
sélection
t
que
attein
les
dès
unités
min
traditi
de
onnelles
(une
(diphones,
d'enregistremen
triphones,
et
syllab
p
es,
t
mots,
uel
etc.).
Enn,
Sur
me
le
ons
plan
prot
linguistique,
résultat
un
our
nouv
hir
el
v
enric
de
hissemen
thèse
t
div
con
c
te
osan
x
e
tuel
pressiv
nous
m
p
es
ermet
paralinguistiques.
de
:
mieux
thèse
fo
o
caliser
sélection
la
script
couv
lecture,
erture,
h
sans
o
négliger
créati
les
de
as-
év
p
v
ects
diques.
proso
Résumé
tel-00608610, version 1 - 22 Sep 2011tel-00608610, version 1 - 22 Sep 2011e
for
the
v
to
oice
e
cr
wherein
e
v
a
y
tion
eness.
f
sen
or
aut
unit-s
tence
e
orating
l
ev
ection
h
synthesis
our
Abstract
recording
This
is
w
a
ork
side,
falls
e
within
dev
t
from
he
c
sco
w
p
the
e
in
of
oices.
text-to-sp
ed
eec
an
h
tage
(TTS)
e
tec
T
hnology
tence
.
in
More
ac
precisely
increasing
,
y
fo
the
cus
also
is
urthermore,
on
corpus
the
tence
v
in
oice
built
creatio
Ultimately
n
access
pro
sp
cess
y
for
40%.
unit-selection
hes
syn
pro
thesis.
as
In
through
a
umerous
st
scores
a
cess
n
utes
dard
and
approac
p
h,
tak
a
in
textual
oices
script
m
of
features.
sev
h,
e
calic
r
v
a
t
l
nal
thousands
This
of
ed
w
b
ords
readabilit
is
d
read
eac
b
included
y
As
a
prop
sp
to
eak
stage.
er
an
in
the
order
a
to
atic
generate
algorithm
appro
e
ximately
w
5
tences
to
than
10
reference
hours
the
of
pro
useable
m
sp
denser
eec
allo
h.
in
The
b
recording
30
time
i
is
new
spread
to
out
oice
o
is
v
ecien
er
v
one
w
or
preparation
t
of
w
thesized
o
erceptiv
w
are
eeks
traditional
and
ac
is
40
follo
sp
w
y
ed
t
b
man
y
cessing.
the
w
considerable
adv
task
these
of
to
man
thesized
ually
v
revising
pressiv
the
x
phone
par-
tic
ords
segmen
e
tation
selec
for
v
all
h,
of
ev
the
expressiv
sp
ten
eec
desired
h.
the
Suc
database
h
required.
a
is
costly
hiev
and
h
time-consuming
re
pro
y
cess
the
presen
y
ts