Dialog-driven video-realistic image-based eye animation [Elektronische Ressource] / Axel Weißenfeld

-

English
143 pages
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Dialog drivenVideo realisticImage basedEyeAnimationVonderFakultätfürElektrotechnikundInformatikderGottfriedWilhelmLeibnizUniversitätHannoverzurErlangungdesakademischenGradesDoktor IngenieurgenehmigteDissertationvonDipl. Ing. AxelWeißenfeldgeb.am3. August1976inLangenhagen20101. Referent: Prof. Dr. Ing. J.Ostermann2. Prof. Dr. rer. nat. V.BlanzTagderPromotion: 29.10.2010iiiAcknowledgementsManypeoplehavecontributedtothemakingofthisbook. FirstofallIwouldliketothankmywifeforherincrediblepatience,encouragementandgreatsuggestions. ThankstoherI managed to finalize this book. Lots of thanks also to my family and friends for theirconstantsupport.I would like to express my gratitude to Professor Dr. Ing. J. Ostermann for being mysupervisor,forhisinvaluablesupportandthegivenopportunitytobeapartofhisresearchteam. IwouldliketothankProfessorDr. rer. nat. V.Blanzforwillinglyagreeingtoserveon my committee. A great motivation for my research was to work with Kang Liu. Notonly did I have some fruitful discussions about facial animations, he also introduced metotheChineseculture.As a scholarship holder of the "Stiftung der Deutschen Wirtschaft", I would like tothank the endowment for the financial support of my scientific work.

Sujets

Informations

Publié par
Publié le 01 janvier 2010
Nombre de lectures 7
Langue English
Poids de l'ouvrage 12 Mo
Signaler un problème

Dialog drivenVideo realisticImage based
EyeAnimation
VonderFakultätfürElektrotechnikundInformatik
derGottfriedWilhelmLeibnizUniversitätHannover
zurErlangungdesakademischenGrades
Doktor Ingenieur
genehmigte
Dissertation
von
Dipl. Ing. AxelWeißenfeld
geb.am3. August1976inLangenhagen
20101. Referent: Prof. Dr. Ing. J.Ostermann
2. Prof. Dr. rer. nat. V.Blanz
TagderPromotion: 29.10.2010iii
Acknowledgements
Manypeoplehavecontributedtothemakingofthisbook. FirstofallIwouldliketothank
mywifeforherincrediblepatience,encouragementandgreatsuggestions. Thankstoher
I managed to finalize this book. Lots of thanks also to my family and friends for their
constantsupport.
I would like to express my gratitude to Professor Dr. Ing. J. Ostermann for being my
supervisor,forhisinvaluablesupportandthegivenopportunitytobeapartofhisresearch
team. IwouldliketothankProfessorDr. rer. nat. V.Blanzforwillinglyagreeingtoserve
on my committee. A great motivation for my research was to work with Kang Liu. Not
only did I have some fruitful discussions about facial animations, he also introduced me
totheChineseculture.
As a scholarship holder of the "Stiftung der Deutschen Wirtschaft", I would like to
thank the endowment for the financial support of my scientific work. The opportunity of
beingpartoftheendowmentwasagreatexperience.
LastbutnotleastIfeelveryobligedtoallmycolleaguesandstudentsattheInstitutfür
InformationsverarbeitungoftheLeibnizUniversitätHannoverformakingsuchacomplex
projectpossiblebyspendingsomuchtimeandeffort. Thanksalottoyouall.iv
Kurzfassung
Die heutige Mensch Maschine Kommunikation besteht überwiegend aus Texteingabe
und Mausclicks einerseits und Text , Bild und Grafikausgabe andererseits. In Zukunft
kann die Maschine die Interaktion auch mit einer synthetischen Sprachausgabe in
Verbindung mit einer fotorealistischen Gesichtsausgabe bereichern. Unter einer fotore
alistischen Animation wird in dieser Arbeit folgendes verstanden: Die Animation darf
nicht von einer Videoaufnahme zu unterscheiden sein und sie muss ein als natürlich
empfundenes menschliches Verhalten aufzeigen. Dafür müssen glatte Mundbewegungen
sowiepassendenicht verbaleArtikulationen,dieu.a. ausMimik,Kopf undAugenbewe
gungen bestehen, erzeugt werden. Diese Arbeit konzentriert sich auf den letzten Punkt,
und es wird ein neues image based Animationssystem vorgestellt, welches zu beliebigen
Sprachausgaben die passenden Augenbewegungen erzeugt. Das Augenanimationssys
tem setzt sich wiederum aus zwei Teilen zusammen: einem Augensteuerungsmodell und
einem Rendering Engine, welches Animationen durch die Kombination eines 3D Au
gapfelmodellsmiteinempassendenimage basedAugenmodellerzeugt.
Die Steuerung der Augen basiert auf der Physiologie des menschlichen Auges sowie
einer statistischen Analyse der Augenbewegungen von Probanden. Zu
diesem Zweck werden zwei Experimente definiert, mit denen die Blickbewegungen
ebensowiedasAugenblinzelnderbeidenProbandenwährendeinesGesprächesanalysiert
werden können. Wie bereits in früheren Publikationen erwähnt, unterscheiden sich die
Augenbewegungen beim Menschen während des Zuhörens und des Sprechens. Laut
unserer Analyse können zwei unabhängige endliche Automaten mit je zwei Zuständen
die Augenbewegungen und das Augenblinzeln beim Zuhören erzeugen. Im Gegensatz
dazumusswährenddesSprechenseinintegriertesModelldieBlickrichtungunddasAu
genblinzeln steuern, da beide Ereignisse gekoppelt sind. Schwerpunkt dieser Arbeit ist
der Entwurf dieses integrierten Augensteuerungsmodells, das automatisch passende Au
genbewegungen und Augenblinzeln durch phonetische sowie prosodische Informationen
zu beliebigen Sprachausgaben generiert. Eine Analyse der Blickrichtung der Probanden
zeigt, dass der Blick, falls er auf den Gesprächspartner gerichtet ist, nicht starr, son
dernzuverschiedenenPositionenimGesichtwechselt. DadieseBlickrichtungsänderun
gen andere Eigenschaften aufweisen, ist das Modell zur Steuerung der Blickrichtungen
durch einen zusätzlichen endlichen Automaten verfeinert, der diese Eigenschaften mod
elliert. AußerdemistdasAugenbewegungsmodell, welchesdenVestibulo Okular Reflex
undSakkadenerzeugenkann,verbessert,indemdasListing’scheGesetzdieNeigungdes
Kopfes sowie die Kopplung zwischen vertikalen Sakkaden und Augenblinzeln berück
sichtigt. Darüber hinaus wurde ein neuartiger endlicher Automat eingeführt, der die
gesprochene Sprache und gleichzeitig den zeitlichen Verlauf zur Steuerung des Augen
blinzelnsberücksichtigt.
Die Bewertung des neuen Augensteuerungsmodells erfolgt durch einen subjektiven
Test,beidemdieTeilnehmerzwischenrealenundanimiertenVideos,dieentwederdurch
das Referenzverfahren oder mit Hilfe des neuen Augensteuerungsmodells erzeugt wer-v
den, unterscheiden müssen. Die Auswertung des Tests ergab, dass die Teilnehmer 78%
des Referenzverfahrens, aber lediglich 54% des neuen Augensteuerungsmodells richtig
identifizieren konnten. Die Nullhypothese, dass die Teilnehmer nicht in der Lage sind,
zwischeneinerVideoaufnahmeundeinerAnimationzuunterscheiden,wirdmittelseiner
Binomialverteilung getestet. Dabei wird die Nullhypothese für das Referenzverfahren
abgelehnt,aberfürdasneueModellbestätigt. DasowohldieAnzahlderrichtigerkannten
Videosbeica. 50%liegtalsauchdieNullhypothesebestätigtwirdunddieTeilnehmerdes
subjektiven Tests im anschließenden Interview keine Mängel oder Fehler bei Videos, die
mitdemneuenAugensteuerungsmodellerzeugtwurden,angaben,istdasResümeedieser
Arbeit,dassdasneueAnimationssystemfotorealistischeAugenanimationenerzeugt,was
bishernochnichterreichtwurde.
Des Weiteren wird in dieser Arbeit ein modell und gradientenbasierter Algorithmus
zur Schätzung der Kopfposition, der die Anforderungen eines image based Animation
ssystems erfüllt, vorgestellt. Bei diesem Algorithmus wurde die Genauigkeit durch die
Einführung einer neuen Gewichtung der Merkmalspunkte sowie eines neuen Ansatzes
fürdieAktualisierungderTexturinformationenverbessert.
Schlagwörter: image based, Gesichtsanimation, Augenanimation, Bewegungss
chätzungdesKopfes,Bildverarbeitung,Computergraphikvi
Abstract
Talking headsareusefultogiveafacetomultimediaapplicationssuchasvirtualoperators
or news readers in dialog systems. However, their great commercial potentials can only
become true, if talking heads are indistinguishable from real recorded videos and at the
same time correctly model the human like behavior. For this, mouth as well as non
verbal behaviors such as head movements, facial expressions and eye movements need
to be generated. In this project, we focus on the latter and a novel image based system
for creating video realistic eye animations for talking heads to arbitrary spoken output is
elaborated. Oureyeanimationsystemconsistsoftwoparts: eyecontrolunitandrendering
engine,whichsynthesizeseyeanimationsbycombining3Dandimage basedmodels.
The designed eye control unit is based on eye movement physiology as well as the
statistical analysis of recorded human beings. For this, we designed two experiments, in
whichweanalyzedgazeaswellasblinkpatternsoftwohumanbeings. Asshowninpre
vious publications, eye movements vary while listening and talking. In listening mode,
twofinitestatemachines,eachwithtwostates,generatethegazeandblinkpatterns,since
these patterns are not coupled as determined our analysis. We focus on talking mode
and are the first researchers to design a new model, which fully automatically couples
eye blinks and movements with phonetic as well as prosodic information extracted from
spoken language. At the same time, we design one integrated model, which considers
the coupling between gaze shifts and eye blinks as determined by our experiment. Our
analysisrevealsthattheeyegazemovesacrossthefacewhilelookingattheinterlocutor.
Thesegazeshiftshaveothercharacteristicsthantheshiftsperformedtoswitchfrommu
tual gaze to gaze away. Therefore, we extend the presently known simple gaze model by
refining mutual gaze. Furthermore, we improve the eye movement models, which gener-
ate the vestibulo ocular reflex and saccades, by considering head tilts, torsion and eyelid
movements. In addition, a novel finite state machine is introduced, which considers the
spokenoutputandthetemporalcoursetogenerateeyeblinks.
The eye animation system is evaluated by a subjective test in which participants dis
criminate between real and animated videos, which are either created by a reference
methodorourdesignedeyecontrolunit. Theanalysisofthetestrevealsthatparticipants
correctly identified the real video with 78% and 54% of the reference and our proposed
method, respectively. Testingthenullhypothesiswiththebinomialdistributionindicates
thatthehypothesisthatparticipantsarenotabletodistinguishbetweenrealandanimated
sequencesisrejectedwithrespecttothereferencemethod,butretainedwithourproposed
method. We conclude the new eye animation system creates video realistic eye anima
tionsforatalking head,whichhasnotbeenachievedbefore,sincethecorrectlyidentified
video samples are close to chance level, the null hypothesis is retained and participants
didnotcriticizeourvideosamplesinaninterviewfollowingthesubjectivetest.
Asaminorissueanappropriatemodel basedandgradient basedheadposeestimation
algorithm as required by an image based animation system is presented. Here the accu
racy of the algorithm is improved by two approaches: Firstly, feature points, which arevii
trackedintheimagesequence,obtainnewweightsinordertobettercompensatenon rigid
motion. Secondly,anovelapproachofupdatingtextureinformationisintroduced,which
allowstoestimatelargerout of planerotationsofthehead.
Keywords: image based,facialanimation,eyeanimation,headposeestimation,com
putervision,computergraphicsviii
Contents
1 Introduction 1
2 FundamentalsofHumanEyes 13
2.1 AnatomyoftheEye . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 AnatomyoftheGlobe . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 EyeMuscles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 EyeMovementPhysiology . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 EyeBlinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 SocialPsychologicalStudiesonGazePatternsandEyeBlinks . . . . . . 19
3 HeadPoseEstimation 21
3.1 SceneModel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Rotationin3DSpace . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 RotationMatrices . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Quaternions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 RigidMotionModel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 CameraModel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.1 PerspectiveProjectionModel . . . . . . . . . . . . . . . . . . . 28
3.4.2 LensModel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4.3 CCDCameraSensorModel . . . . . . . . . . . . . . . . . . . . 29
3.5 MotionEstimationAlgorithm. . . . . . . . . . . . . . . . . . . . . . . . 30
3.6 ImprovingtheRobustnesofMotionEstimation . . . . . . . . . . . . . . 38
3.6.1 WeightingofFeaturePoints . . . . . . . . . . . . . . . . . . . . 40
3.6.2 AutomaticUpdateofTextureInformationofFeaturePoints . . . 44
3.7 ReferenceMethod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4 AnalysisofRecordedSpeechandVideo 50
4.1 RecordingHumanSubjects . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Set up1: CameraRecording . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Set up2: EyeTracker . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 EyeBlinkDetection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 AudioAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 PhonemeLabeling . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.2 RateofSpeech . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.3 EmphasisDetection . . . . . . . . . . . . . . . . . . . . . . . . 59Contents ix
5 StatisticalPropertiesofEyeBlinksandMovements 64
5.1 GazeandBlinkPatterns . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2 GazePatterns,EyeBlinksandSpokenLanguage . . . . . . . . . . . . . 69
5.2.1 GazePatternandSpokenLanguage . . . . . . . . . . . . . . . . 69
5.2.2 EyeBlinksandSpoken . . . . . . . . . . . . . . . . . 71
5.3 CharacteristicsofSaccades . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.4 GazeShiftsandHeadMovements . . . . . . . . . . . . . . . . . . . . . 74
5.5 GazeShiftsandEyeBlinks . . . . . . . . . . . . . . . . . . . . . . . . . 75
6 EyeControlUnit 78
6.1 CharacteristicsofEyeGlobeRotation . . . . . . . . . . . . . . . . . . . 78
6.2 ModelsofEyeMovements . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.1 ModelofSaccadicMovements . . . . . . . . . . . . . . . . . . . 81
6.2.2ofVestibulo ocularReflex(VOR) . . . . . . . . . . . . . 84
6.3 ListeningMode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.1 EyeGazePattern . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.2 BlinkPatterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.4 TalkingMode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 RenderingEngine 92
8 Results 95
8.1 HeadMotionEstimation . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.1.1 TrackingMarkers . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.1.2 WeightingFeaturePoints . . . . . . . . . . . . . . . . . . . . . . 98
8.1.3 UpdateTextureInformation . . . . . . . . . . . . . . . . . . . . 98
8.2 SubjectiveTestsofEyeAnimations . . . . . . . . . . . . . . . . . . . . 102
9 Conclusion 108
A RejectionSampling 113
B SemanticsofStatecharts 115
C DerivationoftheSystematicErrorofTrackingCircles 117
Bibliography 121x
Symbols
Notation:
(X,Y,Z) worldcoordinatesystem
c c c(X ,Y ,Z ) camera
o o o(X ,Y ,Z ) objectcoordinatesystem
¯C normalizedcostfunctionofCH H
¯I(p,t) mean free intensity value of luminance signal of image t at the 2D
positionp
¯J (p) meanfreeintensityvalueofluminancesignaloftemplateiatthe2Di
positionp
¯I averageintensityvalueofluminancesignalofimagett
¯J averagevalueofsignaloftemplateii
¯X samplemean
β ,β ,β eulerangelsofeyeglobex y z
ˇf (x) normalizedandshiftedexponentialdistributione
ˇf shiftedandnormalizedlognormaldistributionln
ˇI(p,t) trueintensityvalueofluminancesignalofimaget atthe2Dposition
p
ΔR linearizedrotationmatrix
p
ΔI neighboringluminancedifferenceofp
δ systemetic error due to offset between projected circle center ande
barycenteroftheprojectedcirlce
ˆf (x) shiftedexponentialdistributione
ˆflognormaldistributionln
y1ˆt timeremaininginstateyg 1
ˆH headposeofreferenceframe j projectedontheunitspherej
ˆI(p, j) intensity value of luminance signal of reference frame j at the 2D
positionp
ˆr averageangularvelocityofsˆ
sˆ sub trajectoryofheadmotion
ι word
κ ,κ radiallensdistortionparameters1 2
λ motionparameters
λ parameterofexponentialdistributione
λ regularizationparameterr
sMV meanvelocityofasaccade