Dialog-driven video-realistic image-based eye animation [Elektronische Ressource] / Axel Weißenfeld

gottfried_wilhelm_leibniz_universitat_hannover - Dipl.-Ing. Axel Weissenfeld , Universität Hannover , <Aweissen@Tnt.Uni-Hannover.De>

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

143 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	gottfried_wilhelm_leibniz_universitat_hannover
Publié le	01 janvier 2010
Nombre de lectures	7
Langue	English
Poids de l'ouvrage	12 Mo

Extrait

Dialog drivenVideo realisticImage based
EyeAnimation
VonderFakultätfürElektrotechnikundInformatik
derGottfriedWilhelmLeibnizUniversitätHannover
zurErlangungdesakademischenGrades
Doktor Ingenieur
genehmigte
Dissertation
von
Dipl. Ing. AxelWeißenfeld
geb.am3. August1976inLangenhagen
20101. Referent: Prof. Dr. Ing. J.Ostermann
2. Prof. Dr. rer. nat. V.Blanz
TagderPromotion: 29.10.2010iii
Acknowledgements
Manypeoplehavecontributedtothemakingofthisbook. FirstofallIwouldliketothank
mywifeforherincrediblepatience,encouragementandgreatsuggestions. Thankstoher
I managed to ﬁnalize this book. Lots of thanks also to my family and friends for their
constantsupport.
I would like to express my gratitude to Professor Dr. Ing. J. Ostermann for being my
supervisor,forhisinvaluablesupportandthegivenopportunitytobeapartofhisresearch
team. IwouldliketothankProfessorDr. rer. nat. V.Blanzforwillinglyagreeingtoserve
on my committee. A great motivation for my research was to work with Kang Liu. Not
only did I have some fruitful discussions about facial animations, he also introduced me
totheChineseculture.
As a scholarship holder of the "Stiftung der Deutschen Wirtschaft", I would like to
thank the endowment for the ﬁnancial support of my scientiﬁc work. The opportunity of
beingpartoftheendowmentwasagreatexperience.
LastbutnotleastIfeelveryobligedtoallmycolleaguesandstudentsattheInstitutfür
InformationsverarbeitungoftheLeibnizUniversitätHannoverformakingsuchacomplex
projectpossiblebyspendingsomuchtimeandeffort. Thanksalottoyouall.iv
Kurzfassung
Die heutige Mensch Maschine Kommunikation besteht überwiegend aus Texteingabe
und Mausclicks einerseits und Text , Bild und Graﬁkausgabe andererseits. In Zukunft
kann die Maschine die Interaktion auch mit einer synthetischen Sprachausgabe in
Verbindung mit einer fotorealistischen Gesichtsausgabe bereichern. Unter einer fotore
alistischen Animation wird in dieser Arbeit folgendes verstanden: Die Animation darf
nicht von einer Videoaufnahme zu unterscheiden sein und sie muss ein als natürlich
empfundenes menschliches Verhalten aufzeigen. Dafür müssen glatte Mundbewegungen
sowiepassendenicht verbaleArtikulationen,dieu.a. ausMimik,Kopf undAugenbewe
gungen bestehen, erzeugt werden. Diese Arbeit konzentriert sich auf den letzten Punkt,
und es wird ein neues image based Animationssystem vorgestellt, welches zu beliebigen
Sprachausgaben die passenden Augenbewegungen erzeugt. Das Augenanimationssys
tem setzt sich wiederum aus zwei Teilen zusammen: einem Augensteuerungsmodell und
einem Rendering Engine, welches Animationen durch die Kombination eines 3D Au
gapfelmodellsmiteinempassendenimage basedAugenmodellerzeugt.
Die Steuerung der Augen basiert auf der Physiologie des menschlichen Auges sowie
einer statistischen Analyse der Augenbewegungen von Probanden. Zu
diesem Zweck werden zwei Experimente deﬁniert, mit denen die Blickbewegungen
ebensowiedasAugenblinzelnderbeidenProbandenwährendeinesGesprächesanalysiert
werden können. Wie bereits in früheren Publikationen erwähnt, unterscheiden sich die
Augenbewegungen beim Menschen während des Zuhörens und des Sprechens. Laut
unserer Analyse können zwei unabhängige endliche Automaten mit je zwei Zuständen
die Augenbewegungen und das Augenblinzeln beim Zuhören erzeugen. Im Gegensatz
dazumusswährenddesSprechenseinintegriertesModelldieBlickrichtungunddasAu
genblinzeln steuern, da beide Ereignisse gekoppelt sind. Schwerpunkt dieser Arbeit ist
der Entwurf dieses integrierten Augensteuerungsmodells, das automatisch passende Au
genbewegungen und Augenblinzeln durch phonetische sowie prosodische Informationen
zu beliebigen Sprachausgaben generiert. Eine Analyse der Blickrichtung der Probanden
zeigt, dass der Blick, falls er auf den Gesprächspartner gerichtet ist, nicht starr, son
dernzuverschiedenenPositionenimGesichtwechselt. DadieseBlickrichtungsänderun
gen andere Eigenschaften aufweisen, ist das Modell zur Steuerung der Blickrichtungen
durch einen zusätzlichen endlichen Automaten verfeinert, der diese Eigenschaften mod
elliert. AußerdemistdasAugenbewegungsmodell, welchesdenVestibulo Okular Reﬂex
undSakkadenerzeugenkann,verbessert,indemdasListing’scheGesetzdieNeigungdes
Kopfes sowie die Kopplung zwischen vertikalen Sakkaden und Augenblinzeln berück
sichtigt. Darüber hinaus wurde ein neuartiger endlicher Automat eingeführt, der die
gesprochene Sprache und gleichzeitig den zeitlichen Verlauf zur Steuerung des Augen
blinzelnsberücksichtigt.
Die Bewertung des neuen Augensteuerungsmodells erfolgt durch einen subjektiven
Test,beidemdieTeilnehmerzwischenrealenundanimiertenVideos,dieentwederdurch
das Referenzverfahren oder mit Hilfe des neuen Augensteuerungsmodells erzeugt wer-v
den, unterscheiden müssen. Die Auswertung des Tests ergab, dass die Teilnehmer 78%
des Referenzverfahrens, aber lediglich 54% des neuen Augensteuerungsmodells richtig
identiﬁzieren konnten. Die Nullhypothese, dass die Teilnehmer nicht in der Lage sind,
zwischeneinerVideoaufnahmeundeinerAnimationzuunterscheiden,wirdmittelseiner
Binomialverteilung getestet. Dabei wird die Nullhypothese für das Referenzverfahren
abgelehnt,aberfürdasneueModellbestätigt. DasowohldieAnzahlderrichtigerkannten
Videosbeica. 50%liegtalsauchdieNullhypothesebestätigtwirdunddieTeilnehmerdes
subjektiven Tests im anschließenden Interview keine Mängel oder Fehler bei Videos, die
mitdemneuenAugensteuerungsmodellerzeugtwurden,angaben,istdasResümeedieser
Arbeit,dassdasneueAnimationssystemfotorealistischeAugenanimationenerzeugt,was
bishernochnichterreichtwurde.
Des Weiteren wird in dieser Arbeit ein modell und gradientenbasierter Algorithmus
zur Schätzung der Kopfposition, der die Anforderungen eines image based Animation
ssystems erfüllt, vorgestellt. Bei diesem Algorithmus wurde die Genauigkeit durch die
Einführung einer neuen Gewichtung der Merkmalspunkte sowie eines neuen Ansatzes
fürdieAktualisierungderTexturinformationenverbessert.
Schlagwörter: image based, Gesichtsanimation, Augenanimation, Bewegungss
chätzungdesKopfes,Bildverarbeitung,Computergraphikvi
Abstract
Talking headsareusefultogiveafacetomultimediaapplicationssuchasvirtualoperators
or news readers in dialog systems. However, their great commercial potentials can only
become true, if talking heads are indistinguishable from real recorded videos and at the
same time correctly model the human like behavior. For this, mouth as well as non
verbal behaviors such as head movements, facial expressions and eye movements need
to be generated. In this project, we focus on the latter and a novel image based system
for creating video realistic eye animations for talking heads to arbitrary spoken output is
elaborated. Oureyeanimationsystemconsistsoftwoparts: eyecontrolunitandrendering
engine,whichsynthesizeseyeanimationsbycombining3Dandimage basedmodels.
The designed eye control unit is based on eye movement physiology as well as the
statistical analysis of recorded human beings. For this, we designed two experiments, in
whichweanalyzedgazeaswellasblinkpatternsoftwohumanbeings. Asshowninpre
vious publications, eye movements vary while listening and talking. In listening mode,
twoﬁnitestatemachines,eachwithtwostates,generatethegazeandblinkpatterns,since
these patterns are not coupled as determined our analysis. We focus on talking mode
and are the ﬁrst researchers to design a new model, which fully automatically couples
eye blinks and movements with phonetic as well as prosodic information extracted from
spoken language. At the same time, we design one integrated model, which considers
the coupling between gaze shifts and eye blinks as determined by our experiment. Our
analysisrevealsthattheeyegazemovesacrossthefacewhilelookingattheinterlocutor.
Thesegazeshiftshaveothercharacteristicsthantheshiftsperformedtoswitchfrommu
tual gaze to gaze away. Therefore, we extend the presently known simple gaze model by
reﬁning mutual gaze. Furthermore, we improve the eye movement models, which gener-
ate the vestibulo ocular reﬂex and saccades, by considering head tilts, torsion and eyelid
movements. In addition, a novel ﬁnite state machine is introduced, which considers the
spokenoutputandthetemporalcoursetogenerateeyeblinks.
The eye animation system is evaluated by a subjective test in which participants dis
criminate between real and animated videos, which are either created by a reference
methodorourdesignedeyecontrolunit. Theanalysisofthetestrevealsthatparticipants
correctly identiﬁed the real video with 78% and 54% of the reference and our proposed
method, respectively. Testingthenullhypothesiswiththebinomialdistributionindicates
thatthehypothesisthatparticipantsarenotabletodistinguishbetweenrealandanimated
sequencesisrejectedwithrespecttothereferencemethod,butretainedwithourproposed
method. We conclude the new eye animation system creates video realistic eye anima
tionsforatalking head,whichhasnotbeenachievedbefore,sincethecorrectlyidentiﬁed
video samples are close to chance level, the null hypothesis is retained and participants
didnotcriticizeourvideosamplesinaninterviewfollowingthesubjectivetest.
Asaminorissueanappr