pour l’obtention du DIPLOME DE DOCTORAT (arrêté du 25 avril 2002)
et soutenue publiquement le
20 décembre 2004
par
OLLIER Sébastien
Des outils pour l’intégration des contraintes spatiales, temporelles et évolutives en analyse des données écologiques Tome 1
Spécialité : biostatistique
JURY : Dominique Pontier, Présidente Nigel Yoccoz, Rapporteur Claude Millier, Rapporteur Jean Thioulouse, Directeur Pierre Couteron, Co-directeur ___________________________________________________________________________ DISCIPLINE : biostatistique ___________________________________________________________________________ RESUME en français : Cette thèse propose des outils et concepts nouveaux pour l’intégration des contraintes spatiales, temporelles et évolutives en analyse des données écologiques. On revient sur la question théorique de l’ordination sous contraintes spatiales par une revue des objets permettant l’intégration des proximités spatiales. On introduit ensuite une nouvelle procédure qui généralise, à l’interface des programmathèques ‘spdep’ et ‘ade4’ du logiciel R, l’ACP sous contrainte de Wartenberg. On aborde ensuite le problème de la typologie de structures multiéchelles, ce qui nous amène à préciser la définition des ...
N° d’ordre : 293-2004 Année : 2004-2005
THESE
présentée
devant l’UNIVERSITE CLAUDE BERNARD - LYON 1
pour l’obtention du DIPLOME DE DOCTORAT
(arrêté du 25 avril 2002)
et soutenue publiquement le
20 décembre 2004
par
OLLIER Sébastien
Des outils pour l’intégration des contraintes spatiales,
temporelles et évolutives en analyse des données écologiques
Tome 1
Spécialité : biostatistique
JURY : Dominique Pontier, Présidente
Nigel Yoccoz, Rapporteur
Claude Millier, Rapporteur
Jean Thioulouse, Directeur
Pierre Couteron, Co-directeur
___________________________________________________________________________
DISCIPLINE : biostatistique
___________________________________________________________________________
RESUME en français :
Cette thèse propose des outils et concepts nouveaux pour l’intégration des contraintes
spatiales, temporelles et évolutives en analyse des données écologiques.
On revient sur la question théorique de l’ordination sous contraintes spatiales par une
revue des objets permettant l’intégration des proximités spatiales. On introduit ensuite une
nouvelle procédure qui généralise, à l’interface des programmathèques ‘spdep’ et ‘ade4’ du
logiciel R, l’ACP sous contrainte de Wartenberg. On aborde ensuite le problème de la
typologie de structures multiéchelles, ce qui nous amène à préciser la définition des méthodes
d’étude de la structure d’une variable à différentes échelles. On propose une solution à la
normalisation des échelles. Les illustrations portent sur des données d’altimétrie laser. Enfin,
à partir d’une critique des procédures ad hoc rencontrées dans la littérature, on définit des
procédures canoniques permettant la prise en compte des proximités évolutives en analyse des
données. Les bases orthonormées associées aux matrices de proximité phylogénétiques et leur
usage en analyse de données sont introduits.
La conclusion porte sur la pratique de la biométrie et les relations qui s’établissent
entre donnée expérimentale, langage mathématique et mise en oeuvre informatique.
___________________________________________________________________________
MOTS-CLES en français : analyse multivariée, analyse multiéchelle, analyse comparative
autocorrélation, écologie statistique, logiciel R
TITRE en anglais : Some tools for the integration of spatial, temporal and evolutive
dependence in ecological data analysis
___________________________________________________________________________
RESUME en anglais
We present new tools and concepts for taking spatial, temporal and evolutive
dependence into account in ecological data analysis.
We go back over the problem of multivariate analysis of spatial patterns by examining
statistical tools permitting the integration of space in data analysis. We then introduce a new
statistical method to generalise, at the interface of the ‘ade4’ and ‘spdep’ packages of the R
software, the multivariate spatial correlation analysis of Wartenberg. The second part deals
with typology of multiscale patterns. Methods for multiscale pattern analysis are presented in
the same theoretical context, which leads to a solution for normalisation of scale. An
illustration is provided on laser altimetry data. In the last part, a revue of ad hoc statistical
comparative methods is given. We then define canonical procedures to integrate phylogenetic
proximities in data analysis: orthonormal basis and phylogenetic proximity matrices are
introduced.
The conclusion tackle on biometry practice and the relations taking place between
experimental data, mathematical tools, and computer science.
________________________________________________________________________
MOTS-CLES en anglais : multivariate analysis, multiscale analysis, comparative analysis,
autocorrelation, statistical ecology, R software
___________________________________________________________________________
INTITULE ET ADRESSE DE L'U.F.R. OU DU LABORATOIRE :
Laboratoire de Biométrie et Biologie Evolutive, UMR 5558 SOMMAIRE
INTRODUCTION…………………………………………………………………………..... 1
CHAPITRE 1………………………………………………………………………………..... 9
1.1. INTRODUCTION………………………………………………………………….….11
1.2. L’ESPACE VUE AU TRAVERS DU VOISINAGE……………………………….....20
1.2.1. Définition
1.2.2. Relations de voisinage
1.2.3. Pondérations de voisinage
1.3. INDICES UNIVARIES DE LA STRUCTURE SPATIALE………………………….33
1.3.1. L’indice I de Moran (1948, 1950)
1.3.2. Le coefficient de contiguïté c de Geary (1954)
1.3.3. Quand les deux écoles se rejoignent …
1.3.4. Tests contre l’absence de structure spatiale
1.4. HESITATIONS METHODOLOGIQUES……………………………………………..44
1.4.1. L'école de Lebart : variances et covariances locales
1.4.2. L'école de l'auto-corrélation spatiale multivariée
1.5. GÉNÉRALISATION DE L’APPROCHE DE WARTENBERG……………………...49
1.5.1. Principes
1.5.2. Définitions
1.5.3. La fonction multispati(…)
1.5.4. Un test de permutation multivarié contre l’absence de structure spatiale
1.6. ILLUSTRATIONS……………………………………………………………………..58
1.6.1. Analyses à composantes cartographiables
1.6.2. Une information exclusivement cartographiable
1.6.3. Mélanges entre variance globale et variance locale
1.7. DISCUSSION ET PERSPECTIVES…………………………………………………..66
1.8. BIBLIOGRAPHIE…………………………………………………………………..…69
CHAPITRE 2………………………………………………………………………………... 77
2.1. INTRODUCTION…………………………………………………………………..…79
2.2. DONNÉES D’ALTIMÉTRIE LASER………………………………………………...80
2.2.1. Contexte
2.2.2. Description de l’expérience
2.2.3. Les données
2.3. STRUCTURE D’UNE VARIABLE QUANTITATIVE……………………………....85
2.4. FAMILLES DE K FORMES BILINÉAIRES SYMÉTRIQUES…………………..….89
2.4.1. Définitions
2.4.2. La classe d’objets ‘kfbs’
2.4.3. Formes de Geary/Lebart : le variogramme
2.4.4. Formes de Moran/Smouse : le corrélogramme
2.4.5. Formes de Greig-Smith/Noy-Meir : les msbs
2.4.6. Formes de Hill : les ttlv
2.4.7. Typologie d’un ensemble de formes bilinéaires
2.5. BASES ORTHONORMÉES ET FAMILLES DE K PROJECTEURS…………...…107
2.5.1. Définitions
2.5.2. La classe d’objets ‘orthobasis’
2.5.3. Les bases associées à la diagonalisation des matrices symétriques 2.5.4. Expression analytique des vecteurs propres de l’opérateur de Méot
2.5.5. La base associée à l’analyse spectrale à une dimension
2.5.6. Les bases d’ondelettes à une dimension
2.6. NORMALISATION DES FORMES BILINÉAIRES……………………………......129
2.6.1. Introduction
2.6.2. Définitions
2.6.3. Typologie de structures
2.7. APPLICATIONS AUX DONNÉES D’ALTIMÉTRIE LASER………………..……139
2.8. DISCUSSION ET PERSPECTIVES…………………………………………..……..139
2.9. BIBLIOGRAPHIE…………………………………………………………...……….140
CHAPITRE 3……………………………………………………………………….……… 145
3.1. INTRODUCTION…………………………………………………………..………..147
3.2. LA PHYLOGÉNIE COMME NOUVELLE CLASSE DE DONNÉES…..…………151
3.2.1. Définitions
3.2.2. La classe d’objets ‘phylog’
3.3. REPRÉSENTATION GRAPHIQUE DES DONNÉES………….…………………..158
3.3.1. La fonction symbols.phylog(…)
3.3.2. La dotchart.phylog(…)
3.3.3. La fonction table.phylog(…)
3.4. LA MÉTHODE DES CONTRASTES………………………….……………………162
3.4.1. Le principe des contrastes phylogénétiques
3.4.2. La métrique phylogénétique
3.4.3. Usage de la méthode des contrastes
3.5. LE TEST D’ABOUHEIF (1999)…..…………………………………………………177
3.5.1. Principe du test d’Abouheif
3.5.2. Le cas d’une variable quantitative
3.5.3. Le cas d’une variable qualitative
3.5.4. La matrice de proximité A
3.5.5. Conclusions
3.6. DU CORRÉLOGRAMME A L’ORTHOGRAM………………………………….....188
3.7. DISCUSSION ET PERSPECTIVES………………………………………………....190
3.8. BIBLIOGRAPHIE…………………………………………………………………....192
CONCLUSION…………………………………………………………………………..… 197
BIBLIOGRAPHIE...……………………………………………………………………..… 201
INTRODUCTION
INTRODUCTION
A en croire le titre de la prochaine réunion annuelle conjointe de l'Ecological Society of
America (ESA) et de l'International Congress of Ecology (INTECOL), qui se tiendra à
Montréal du 7 au 12 août 2005 (http://abstracts.co.allenpress.com/esa/entrance.html), les
notions de structures (« pattern ») et d’échelles (« scale ») sont bien des questions centrales
de l’écologie (Levin, 1992). De fait, la plupart des systèmes écologiques présentent une
importante variabilité dans l'espace et dans le temps de leurs principales caractéristiques
(biomasse, composition spécifique, …), variabilité qui est à la fois déterminant et
conséquence de leur dynamique d'ensemble (Hanski, 1994). Selon Frontier et Pichod-Viale
(1990), « une des questions fondamentales de l’analyse actuelle des écosystèmes est
précisément leur stratégie d’occupation de l’espace-temps, et ce, à toutes les échelles
d’observation ». Etudier la variabilité spatiale et temporelle qui affecte populations,
peuplements et écosystèmes, sur une large gamme d’échelles est donc au cœur des
préoccupations des écologues.
Cet engouement a suscité assez vite une demande méthodologique des écologues vis-à-
vis des statisticiens, assurant le développement d’échanges interdisciplinaires et favorisant
l’émergence de méthodes statistiques aptes à mettre en évidence les principales échelles de
variations. Quel que soit l’objectif recherché, la plupart de ces études ont fait l’objet d’un
échantillonnage spatialisé de plusieurs unités statistiques de façon répétée dans le temps. Elles
ont conduit à l’obtention d’un ensemble complexe de données, généralement multivariées. La
caractéristique principale de ces données, hormis leur caractère multivarié, est donc
l’ordonnancement des unités statistiques (relevés, populations ou organismes …) selon un
critère spatial ou temporel. Par conséquent, chaque unité statistique ne peut être considérée
comme indépendante des autres dans la mesure où elle entretient avec elles des relations de
proximité spatiale et/ou temporelle. Les relations de voisinage entre stations de mesure sur un