//img.uscri.be/pth/08b5a91f0745795f82c73baa1c805c25de3147f3
Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Grammaires de Formes pour Analyse d'Images : application a la Modelisation Automatique., Shape Grammar Parsing : application to Image-based Modeling

De
176 pages
Sous la direction de Nikos Paragios
Thèse soutenue le 01 juin 2011: Ecole centrale Paris, Ecole Centrale Paris
L’objectif de cette thèse était de résoudre le problème d’analyse d’image de façade avec a priori de forme procédurale en vue de l’appliquer à la modélisation 3D d’immeuble à partir d’une seule image. Le cadre de cette thèse se situe à la frontière de l’informatique graphique et de la vision par ordinateur, tant d’un point de vue des méthodes employées que des applications potentielles.Deux approches complémentaires ont été proposées: une méthode dite ascendante qui cherche à regrouper des régions similaires de l’image afin de révéler la structure sous-jacente de la façade ; et une méthode dite descendante basée sur les puissants principes de l’apprentissage par renforcement. Ce nouvel algorithme combine des mesures locales issues de méthodes d’apprentissage supervisé dans une optimisation globale d’un Processus de Décision Markovien, qui découvre la grammaire du bâtiment au fil des itérations.Ces deux méthodes ont été évaluées qualitativement et quantitativement. Les résultats ainsi obtenus, se sont avérés bien meilleurs que l’état de l’art sur le plan de la rapidité, de la qualité de segmentation, mais également au niveau de la flexibilité de la méthode et de ses extensions éventuelles. Cet algorithme a été abondamment testé sur différents types de grammaires de formes, sur différents styles architecturaux, avec différentes mesures sur les images, et s’est avéré particulièrement robuste aux conditions d’illuminations et aux occlusions.En conclusion, les grammaires de formes peuvent être utilisées comme une pierre de Rosette afin de déchiffrer le langage de l’architecture et permettent ainsi de modéliser un bâtiment 3D à partir d’une unique image, à travers un nouvel algorithme issu de l’apprentissage par renforcement. D’une part la méthode développée apporte une réponse au problème de reconstruction urbaine 3D à large échelle à partir d’images, et d’autre part elle laisse entrevoir de potentielles applications de l’apprentissage par renforcement en vision par ordinateur, domaine qui jusqu’alors ne s’y était que très peu intéressé.
-Informatique graphique
-Analyse d’images
-Vision par ordinateur
The purpose of this thesis was to perform facade image parsing with shape grammars in order to tackle single-view image-based 3D building modeling. The scope of the thesis was lying at the border of Computer Graphics and Computer Vision, both in terms of methods and applications.Two different and complementary approaches have been proposed: a bottom-up parsing algorithm that aimed at grouping similar regions of a facade image so as to retrieve the underlying layout, and a top-down parsing algorithm based on a very powerful framework: Reinforcement Learning. This novel parsing algorithm uses pixel-wise image supports based on supervised learning in a global optimization of a Markov Decision Process.Both methods were evaluated quantitatively and qualitatively. The second one was proved to support various architectures, several shape grammars and image supports, and showed robustness to challenging viewing conditions; illumination and large occlusions. The second method outperformed the state-of-the-art both in terms of segmentation and speed performances. It also provides a much more flexible framework, in which many extensions may be envisioned.The conclusion of this work was that the problem of single-view image-based 3D building modeling could be solved elegantly by using shape grammar as a Rosetta stone to decipher the language of Architecture through a well-suited Reinforcement Learning formulation. This solution was a potential answer to large-scale reconstruction of urban environments from images, but also suggested the possibility of introducing Reinforcement Learning in other vision tasks such as generic image parsing, where it have been barely explored so far.
-Computer Graphics
-Image Parsing
-Computer Vision
Source: http://www.theses.fr/2011ECAP0024/document
Voir plus Voir moins

ECOLECENTRALEPARIS
PHD THESIS
toobtainthetitleof
DoctorofEcoleCentraleParis
Specialty: APPLIED MATHEMATICS
Defendedby
Olivier TEBOUL
ShapeGrammarParsing:
ApplicationtoImage-basedModeling
preparedatEcoleCentraledeParis,MASlaboratory
defendedonJune1,2011
Jury:
Chairman: Pr. Marc SCHOENAUER - InriaSaclay
Reviewers: Pr. Jiri MATAS - CzechTechnicalUniversity,Prague
Pr. Marc POLLEFEYS - ETHZurich
Advisor: Pr. Nikos PARAGIOS - EcoleCentraledeParis
Examiners: Pr. Carsten ROTHER - MicrosoftResearchCambridge
Pr. Sylvain LEFEBVRE - InriaNancy
Pr. Renaud KERIVEN - EcolePolytechnique-Acute3D
Pr. Iasonas KOKKINOS - EcoleCentraleParis
tel-00628906, version 1 - 6 Oct 20112
tel-00628906, version 1 - 6 Oct 2011Acknowledgments
First of all, I would like to sincerely acknowledge my advisor Nikos Paragios, both as a su-
pervisor and as a person, for his strong support, the total liberty he gave me and the numerous
opportunitiesheofferedmealongtheway. IhadawonderfultimeworkinginEcoleCentraleParis
under his supervisionn during these three years and I will not forget it. Then I would like to thank
MicrosoftFranceandMicrosoftResearchCambridge,andmorespecificallyPierre-LouisXechand
FabienPetitcolas,forhavingsupportedmyworkwithacompletetrustandfreedom,puttingmein
thebestpossibleconditionstocarryonmyresearch.
Second,Iwouldliketothankallthecommitteemembers,thetworeviewersJiriMatasandMarc
Pollefeys, the chairman Marc Schoenauer, and the examinators Carsten Rother, Renaud Keriven,
Sylvain Lefebvre, and Iasonas Kokkinos for having taken the time to read and evaluate my work,
fortheirrelevantcommentsandquestionsandforthefruitfulremarkstheyprovidedintheirreports
andduringthedefense.
Third,IwouldliketoacknowledgethepeoplewhomIhavecollaboratedthemostwith,thatisto
sayLoïcSimonandPanagiotisKoutsourakis. Wespentalotoftimetogether,sharedalottogether
andthereforeIowethemalotbothprofessionallyandpersonally. Moreover,Ihadagreatpleasure
workingwithIasonasKokkinosonveryexcitingproblems. Iasonashasreallybeenasecondadviser
tomeandhehasallmygratitude. Iwouldalsoliketothankmycolleaguesthatboremeinthesame
roomduringtheseyearswithgreatpatienceandkindnessandIreallyconsiderthemastruefriends:
Aris Sotiras, Wang Chaohui, Loïc Simon, Panos Koutsourakis, Ahmed Besbes, Salma Essafi and
Radhouene Neji. My gratitude also goes to my colleagues who reviewed my work: Ahmed, Aris,
Chaohui, Loic and Sarah Parisot, and on a larger scale, I would like to thank all the members of
the vision and medical imaging team: Maxime, Noura, Martin, Charlotte, Olivier, Regis, Daniel,
Mickael, Georg, Fabrice, Nicolas, Pierre-Yves, Katerina, Bo, Sarah, Stravros and Haithem with
whom it was a pleasure to work on a daily basis. I do not forget people who visited the lab for a
while but long enough to become friends: Kostas who supervised my work at the beginning and
with whom it is always a pleasure to share a coffee whenever I visit Athens, Rola from Montreal
andJoséfromBarcelona.
3
tel-00628906, version 1 - 6 Oct 20114
Then, I would like to acknowledge all the members of the MAS laboratory, with special thanks
toSylvieDervinwhohasalwaysbeenoneofmyfirstsupport,ErickHerbin,MarcAiguier,Céline
Hudelot and Florian De Vuyst who offered me the possibility to teach at Ecole Centrale Paris,
Paul-HenryCournède,FredericAbergel,PatrickCalletandGillesFayefortheirkindnessandwith
whomitisalwaysapleasuretodiscuss.
Moreover, I would like to thank the people from outside whom I had the great opportunity to
collaborate with. First of all Sylvain Lefebvre with whom I really appreciated to collaborate on
a very exciting project and that invited me along with Georges Drettakis to their lab in Sophia
Antipolisin2009. ThenGiorgosTziritasandNikosKomodakiswhoinvitedmeinHeraklio,Crete
duringthesummer2009whereIhadagreattimeonapersonalandprofessionallevel. AlanYuille
who invited me in UCLA in summer 2010 and with whom I had a great pleasure to take the time
todiscussdeeplyaboutvisionproblems.
Outside of the professional sphere, I would like to thank all my family who always showed me
love and support and who were most important to me that I may have showed. In particular, I
wouldliketothankAgawhohasalwaysbeenmyfirstandunconditionalsupport,alwaysbringing
meloveandhappiness. Beyondthat,youallhelpedmeinyourownwayandtoallofyouIdedicate
thisthesis.
There are also some friends that I consider as family and that I would also like to acknowledge.
They all supported and helped me, sometimes without even knowing it. Ali Ezzatyar, Razvan
Ionasec, Bastien Grandcoin, Miloud Chahlafi, Remy Beharaing, Sinan Al Awabdh, Alba Jimenez
andChristinaPapistaarealllikebrothersandsistersandtheyhavemyeverlastinggratitude.
Ultimately, I would like to thank all my friends and the people that shared some time with me
duringmyPh.D,makingmeforgetaboutmyresearchforawhile. Thosearemynumerousfriends
from Paris wherever they initially come from, my Volleyball team, people from Crete that hosted
me in their beautiful island, all the very nice people I met in California, my Brazilian friends and
myPortugueseteacher. Lastbutnotleast,IwouldliketothankLuizaMachadoforallshebrought
meandwhocertainlychangedmylifemorethananybodyelseduringthesethreeyears.
tel-00628906, version 1 - 6 Oct 2011Abstract
The purpose of this thesis was to perform facade image parsing with shape grammars in order to
tackle single-view image-based 3D building modeling. The scope of the thesis was lying at the
borderofComputerGraphicsandComputerVision,bothintermsofmethodsandapplications.
Two different and complementary approaches have been proposed: a bottom-up parsing al-
gorithm that aimed at grouping similar regions of a facade image so as to retrieve the underlying
layout, and a top-down parsing algorithm based on a very powerful framework: Reinforcement
Learning. Thisnovelparsingalgorithmusespixel-wiseimagesupportsbasedonsupervisedlearn-
inginaglobaloptimizationofaMarkovDecisionProcess.
Both methods were evaluated quantitatively and qualitatively. The second one was proved to
supportvariousarchitectures,severalshapegrammarsandimagesupports,andshowedrobustness
to challenging viewing conditions; illumination and large occlusions. The second method outper-
formedthestate-of-the-artbothintermsofsegmentationandspeedperformances. Italsoprovides
amuchmoreflexibleframework,inwhichmanyextensionsmaybeenvisioned.
The conclusion of this work was that the problem of single-view image-based 3D building
modeling could be solved elegantly by using shape grammar as a Rosetta stone to decipher the
language of Architecture through a well-suited Reinforcement Learning formulation. This solu-
tion was a potential answer to large-scale reconstruction of urban environments from images, but
also suggested the possibility of introducing Reinforcement Learning in other vision tasks such as
genericimageparsing,whereithavebeenbarelyexploredsofar.
Keywords: Computer Vision, Computer Graphics, Procedural Modeling, Image Parsing, Re-
inforcementLearning,Image-basedModeling.
5
tel-00628906, version 1 - 6 Oct 20116
tel-00628906, version 1 - 6 Oct 2011Résumé
L’objectif de cette thèse était de résoudre le problème d’analyse d’image de façade avec a priori
de forme procédurale en vue de l’appliquer à la modélisation 3D d’immeuble à partir d’une seule
image. Lecadredecettethèsesesitueàlafrontièredel’informatiquegraphiqueetdelavisionpar
ordinateur,tantd’unpointdevuedesméthodesemployéesquedesapplicationspotentielles.
Deuxapprochescomplémentairesontétéproposées: uneméthodediteascendantequicherche
à regrouper des régions similaires de l’image afin de révéler la structure sous-jacente de la façade
; et une méthode dite descendante basée sur les puissants principes de l’apprentissage par ren-
forcement. Cenouvelalgorithmecombinedesmesureslocalesissuesdeméthodesd’apprentissage
supervisé dans une optimisation globale d’un Processus de Décision Markovien, qui découvre la
grammairedubâtimentaufildesitérations.
Ces deux méthodes ont été évaluées qualitativement et quantitativement. Les résultats ainsi
obtenus, se sont avérés bien meilleurs que l’état de l’art sur le plan de la rapidité, de la qual-
ité de segmentation, mais également au niveau de la flexibilité de la méthode et de ses extensions
éventuelles. Cetalgorithmeaétéabondammenttestésurdifférentstypesdegrammairesdeformes,
sur différents styles architecturaux, avec différentes mesures sur les images, et s’est avéré partic-
ulièrementrobusteauxconditionsd’illuminationsetauxocclusions.
En conclusion, les grammaires de formes peuvent être utilisées comme une pierre de Rosette
afin de déchiffrer le langage de l’architecture et permettent ansi de modéliser un bâtiment 3D à
partird’uneuniqueimage,àtraversunnouvelalgorithmeissudel’apprentissageparrenforcement.
D’une part la méthode développée apporte une réponse au problème de reconstruction urbaine 3D
àlarge échelle àpartir d’images, et d’autrepart elle laisseentrevoir depotentielles applications de
l’apprentissageparrenforcementenvisionparordinateur,domainequijusqu’alorsnes’yétaitque
trèspeuintéressé.
Mots clés: Vision par ordinateur, informatique graphique, modélisation pocédurale, znalyse
d’images,apprentissageparrenforcement,modélisationàpartird’images.
7
tel-00628906, version 1 - 6 Oct 20118
tel-00628906, version 1 - 6 Oct 2011Contents
1 Introduction 19
1.1 IndustrialContext: The3DIndustry . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1.1 AFastGrowingIndustry . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1.2 3DContentCreationanditsChallenges . . . . . . . . . . . . . . . . . . . 20
1.2 State-of-the-artinImage-based3DModeling . . . . . . . . . . . . . . . . . . . . 21
1.2.1 FullyAutomaticMultiple-ViewsMethods . . . . . . . . . . . . . . . . . . 21
1.2.2 Semi-automaticMethods . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 TheoreticalContext: theSemanticGap . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4 Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 ProceduralModeling 27
2.1 StateoftheArt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1 Chomsky’sFormalGrammars . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.2 L-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.3 ShapeGrammars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.4 SetGrammarsinComputerGraphics . . . . . . . . . . . . . . . . . . . . 33
2.2 ProceduralShapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.2 Derivationprocess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.3 Operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.4 SimpleExamples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3 BuildingModelingwithShapeGrammars . . . . . . . . . . . . . . . . . . . . . . 46
2.3.1 RoofOperators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.2 TagOperatorsforConsistentShapeGeneration . . . . . . . . . . . . . . . 49
2.3.3 ExamplesofShapeGrammars . . . . . . . . . . . . . . . . . . . . . . . . 51
2.4 2DBinarySplitGrammars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4.2 ExpressivePowerofBSGs . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4.3 BSGforCompactAccurateModeling . . . . . . . . . . . . . . . . . . . . 55
2.4.4 SomeExamplesofBSGs . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9
tel-00628906, version 1 - 6 Oct 201110 CONTENTS
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3 Bottom-UpParsing 63
3.1 StateoftheArt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1.2 RepetitionsandLattices . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.3 AxialSymmetries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1.4 WindowDetection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.1.5 RelaxingtheRegularityConstraint . . . . . . . . . . . . . . . . . . . . . . 66
3.2 DetectionofSimilarFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.1 InterestPointDetection. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.2 InterestPointDescription . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.3 ClusteringintheFeaturesSpace . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.4 DescriptorClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.3 ClusterAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.1 PositionDistribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.2 JumpDistribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.3 ClusterScore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.4 GlobalPositionandJumpDistributions . . . . . . . . . . . . . . . . . . . 76
3.4 ModelingPatternRepetitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.1 MarkovChainFormulation . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.2 UnaryPotentials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.4.3 Pair-wisePotentials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.4.4 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.5 ExperimentalValidation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.5.1 QualitativeResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.5.2 QuantitativeValidation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.5.3 FailureCases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4 Top-DownParsing: ANovelAlgorithm 85
4.1 StateoftheArt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1 Context-FreeGrammarParsing . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.2 ImageGrammarParsing . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.3 FacadeParsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 ABriefOverviewMarkovDecisionProcesses . . . . . . . . . . . . . . . . . . . . 89
4.2.1 MarkovDecisionProcesses . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.2.2 DynamicProgramming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.3 Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2.4 ReinforcementLearning . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.2.5 SemiMarkovDecisionProcesses . . . . . . . . . . . . . . . . . . . . . . 103
tel-00628906, version 1 - 6 Oct 2011