D Chessel J Lobry Biométrie et Biologie Evolutive Université Lyon1
15 pages
Français

D Chessel J Lobry Biométrie et Biologie Evolutive Université Lyon1

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
15 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Niveau: Secondaire, Collège, Troisième

  • cours - matière potentielle : développement


D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1 Logiciel - Librairie ade4 - En cours de développement Analyse des correspondances internes 1. Introduction Le problème est posé dans le jeu de données 'ardeche' (annexe Données : ardeche). data(ardeche) ardeche$tab 1A 1B 1C 1D 1E 2A 2B 2C 2D 2E 2F 3A 3B 3C 3D 3E 3F 4A 4B 4C 4D 4E 4F 5A Eph1 9 9 6 6 9 7 3 6 6 8 5 11 8 9 10 10 8 6 8 8 11 7 4 9 Eph2 7 4 6 6 8 8 4 7 7 8 1 4 1 2 3 1 1 9 8 9 5 8 3 6 Eph3 6 2 5 4 7 5 0 1 5 7 0 4 0 0 0 2 1 4 3 3 2 6 3 5 Eph4 0 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 2 1 1 10 Eph5 5 0 5 5 4 0 0 0 3 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 . . . Tri15 1 0 1 2 5 6 0 0 0 5 0 2 0 1 2 1 2 0 0 0 1 0 0 0 Tri16 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 5B 5C 5D 5E 5F 6A 6B 6

  • correspondances intra-classe sur les lignes et sur les colonnes

  • tableau des indicatrices des classes de la partition des lignes

  • analyses intra-classes

  • groupe d'espèces

  • analyses inter-classes

  • lignes-espèces


Sujets

Informations

Publié par
Nombre de lectures 15
Langue Français

Extrait

1.
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
Logiciel - Librairie ade4 - En cours de développement  
Analyse des correspondances internes
Introduction
Le problème est posé dans le jeu de données 'ardeche' (annexe Données : ardeche).  data(ardeche) ardeche$tab   1A 1B 1C 1D 1E 2A 2B 2C 2D 2E 2F 3A 3B 3C 3D 3E 3F 4A 4B 4C 4D 4E 4F 5A Eph1 9 9 6 6 9 7 3 6 6 8 5 11 8 9 10 10 8 6 8 8 11 7 4 9 Eph2 7 4 6 6 8 8 4 7 7 8 1 4 1 2 3 1 1 9 8 9 5 8 3 6 Eph3 6 2 5 4 7 5 0 1 5 7 0 4 0 0 0 2 1 4 3 3 2 6 3 5 Eph4 0 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 2 1 1 10 Eph5 5 0 5 5 4 0 0 0 3 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 . . . Tri15 1 0 1 2 5 6 0 0 0 5 0 2 0 1 2 1 2 0 0 0 1 0 0 0 Tri16 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2   5B 5C 5D 5E 5F 6A 6B 6C 6D 6E 6F Eph1 8 8 8 7 7 1 5 4 0 4 6 Eph2 5 7 6 5 5 9 9 9 9 10 9 Eph3 4 2 2 2 5 7 5 6 6 5 2 Eph4 10 9 9 9 8 8 6 9 9 7 2 Eph5 0 0 0 0 0 7 5 9 10 10 8 . . . Tri15 0 0 0 0 0 0 0 0 0 0 0 Tri16 3 0 3 0 0 0 1 1 1 0 0 Ce tableau faunistique contient 43 lignes-espèces et 34 colonne-relevés. Les 35 relevés ont été exécutés dans 6 stations à 6 dates différentes (il manque un relevé pour que le plan soit complet).  data(ardeche) table(ardeche$dat.fac,ardeche$sta.fac)          A B C D E F  apr83 1 1 1 1 1 1  aug82 1 1 1 1 1 1  feb83 1 1 1 1 1 1  jul82 1 1 1 1 1 0   jul83 1 1 1 1 1 1  nov82 1 1 1 1 1 1 Son ordination par l'analyse des correspondances donne un plan 1-2 entièrement consacré à l'effet temporel.  coa1 <- dudi.coa(ardeche$tab,scann=F,nf=4) scatter.class(coa1$co,ardeche$dat.fac,clab=1.5,cell=0,axesell=F) scatter.label(coa1$co,clab=0.75,add.p=T)  
 _____________________________________________________________________________ Logiciel R / Correspondances internes / them6.doc / Page 1 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
 
 scatter.class(coa1$co,ardeche$sta.fac,xax=3,yax=4,clab=1.5,cell=0,axesell=F) scatter.label(coa1$co,xax=3,yax=4,add.p=T,clab=0.75) 
 L'axe 3 contient manifestement de l'information spatiale. Le premier objectif est d'ordonner ce tableau en éliminant l'effet temporel . D'autre part, les espèces sont réparties en 4 groupes faunistiques :   _____________________________________________________________________________ Logiciel R / Correspondances internes / them6.doc / Page 2 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
2.
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1 summary(ardeche$esp.fac) Col Eph Ple Tri 13 11 3 16 Il y a 13 Trichoptères, 11 Éphéméroptères, 3 Plécoptères et 11 Trichoptères.  scatter.class(coa1$li,ardeche$esp.fac,clab=1.5,cell=0,axesell=F)  
 Si l'effet est moins évident, il reste sensible. Une part des variations faunistiques se fait entre groupes d'espèces. Sachant que chaque groupe est déterminé par un spécialiste et qu'ainsi certains groupes sont étudiés ici et ignorés là suivant la disponibilité de ces spécialistes la question du rôle typologique des groupes est posée. Le second objectif est d'ordonner ce tableau en éliminant la variabilité inter-groupes . On cherche donc à faire une double analyse des correspondances intra-classe sur les lignes et sur les colonnes.
Éléments théoriques
On reprend l'essentiel de l'article d'origine (Cazes et al. 1988). Les analyses inter-classes sont des ACPVI et les analyses intra-classes sont des ACPVI orthogonales. Une double intra-classe est donc une analyse à deux projecteurs. X  est un tableau à n lignes et m  colonnes, Q m un produit scalaire de R m , D n  un produit scalaire de R n , P m un projecteur Q m -orthogonal de R m , P n un projecteur D n -orthogonal de R n . On est dans le schéma général du type :  
 
_____________________________________________________________________________  Logiciel R / Correspondances internes / them6.doc / Page 3 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
 
(1.1)
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1 Q m m m P ↑ ↓ P t m m m m X t X  n n P tn ↑ ↓ P n n n D n Dans le cas d'une AFC initiale, le triplet X , Q m , D n ) devient : D J J J 1 t 1 1 1  D P D I 1 IJ ↑ ↓ D I PD J 1 IJ  (1.2) I I D I On note A  le tableau des indicatrices des classes de la partition des lignes ( I  lignes et K  colonnes) et on note B  le tableau des indicatrices des classes de la partition des colonnes ( J  lignes et L colonnes). Les projecteurs de centrage par blocs sont alors : n I I I  PP == II ABAB t DDA 1 A t D t 1 t  (1.3) m J J B B D J D'où le schéma de l'analyse des correspondances internes : D J J J I J B B t D J B 1 B t D J ↑ ↓ I J B B t D J B 1 B t D Jt J J D J 1 P t D I 1 1 IJ ↑ ↓ D I 1 PD J 1 1 IJ  I I 1 t 1 I I A A t D I A A t D I ↑ ↓ I I A A t D I A A t D I I I D I qui se simplifie en :
 
 _____________________________________________________________________________ Logiciel R / Correspondances internes / them6.doc / Page 4 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
(1.4)
3.
 
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1 D J J J t P 0 ↑ ↓ P 0  I D I Le tableau P 0 doublement centré a pour terme général :  p p δ() p i . p µ() p . j + p δ( i j p i . p . j  ij i j i j ( ) p δ( i )+ p +µ( j ) p δ( i )+ p +µ( j ) avec les notations :    p ij  terme général du tableau de fréquences initial    p i .  somme des p ij sur la ligne i     p j  somme des p ij sur la colonne j  .    p i µ( j )  somme des p ij sur la ligne i pour les colonnes de la classe de j     p δ( i ) j  somme des p ij sur la colonne j pour les lignes de la classe de i    p δ( i )µ( j ) somme des p ij sur les cellules du bloc où se trouve ( i , j )    p δ( i )+  somme des p i . pour les lignes de la classe de i     p +µ( j )  somme des p . j pour les colonnes de la classe de j  
Propriétés
La fonction 'witwit.coa' exécute ces calculs ('witwit' pour 'intra-intra')  ww <- witwit.coa(coa1,ardeche$row.blocks,ardeche$col.blocks) Select the number of axes: 2
aci L'ACI est une AFC sous double contrainte.
afc
 
 _____________________________________________________________________________ Logiciel R / Correspondances internes / them6.doc / Page 5 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
(1.5)
(1.6)
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
Elle peut être considérée comme une double analyses en composantes principales sur variables instrumentales (Rao 1964, Bonifas et al. 1984) ou une double analyse factorielle privilégiante (Lafaye de Micheaux 1978) ou une double S.A.C.P. (Boudou 1982) ou une double AFC intra-classe (Benzécri 1983). On peut la considérer comme une AFC dont les coordonnées lignes et colonnes doivent être centrées par blocs pour les pondérations marginales. Les valeurs propres de l'ACI sont donc, en valeurs cumulées, toujours inférieures ou égales à celle de l'AFC initiale.  cumsum(ww$eig[1:9]) [1] 0.06858 0.13183 0.17436 0.21000 0.23911 0.26617 0.28933 0.31093 0.33142 cumsum(coa1$eig[1:9]) [1] 0.1469 0.2820 0.3612 0.4317 0.4826 0.5260 0.5671 0.6019 0.6289 Plus les différences sont sensibles, plus le double centrage a eu de l'effet.  coa1$eig[1:9] [1] 0.14693 0.13505  0.07918 0.07051 0.05094 0.04336 0.04114 0.03483 0.02697 ww$eig[1:9] [1] 0.06858 0.06325 0.04253 0.03564 0.02911 0.02706 0.02316 0.02160 0.02049 Comme l'effet temporel est éliminé par le centrage et qu'il définit le plan 1-2 de l'AFC, les valeurs propres 1-2 de l'ACI sont sensiblement les valeurs propres 3-4 de l'AFC. En AFC les cartes factorielles sont centrée pour la pondération marginale :  scatter.value(coa1$li,coa1$lw) scatter.class(coa1$li,factor(rep(1,length(coa1$lw))),coa1$lw,add.p=T)  
 Moyennes nulles et covariance nulle C'est encore vraie en ACI :  scatter.value(ww$li,coa1$lw) scatter.class(ww$li,factor(rep(1,length(coa1$lw))),coa1$lw,add.p=T) 
 _____________________________________________________________________________ Logiciel R / Correspondances internes / them6.doc / Page 6 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
Mais de plus le centrage à l'origine est vrai pour chaque bloc :  par(mfrow=c(2,2)) for (j in 1:4) {  cla <- levels(ardeche$esp.fac)[j]    x <- ww$li[ardeche$esp.fac==cla,]  p ww$lw[ardeche$esp.fac==cla] <- scatter.label(ww$li,clab=0,cpoi=0,sub=as.character(cla),csub=2)  scatter.value(x,p,add.p=T,cleg=0)  scatter.class(x,factor(rep(1,length(p))),p,add.p=T) }
 
 _____________________________________________________________________________  Logiciel R / Correspondances internes / them6.doc / Page 7 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
Noter par contre que la propriété sur les covariances n'est pas conservée par blocs. Remarquer aussi les variations de variance par blocs. L'ACI donne des scores lignes centrés par blocs qui optimisent la moyenne des variances intra-bloc des moyennes par colonnes. On peut donc caractériser la participation de chaque bloc à chacune des valeurs propres.  summary(ww) Internal correspondence analysis class: witwit coa dudi $call: witwit.coa(dudi = coa1, row.blocks = ardeche$row.blocks, col.blocks = ardeche$col.blocks,   scannf = F) 2 axis-components saved eigen values: 0.06858 0.06325 0.04253 0.03564 0.02911 ...  Eigen value decomposition among row blocks  Axis1 Axis2 weights Eph 0.0511 0.0563 0.2879 Ple 0.1154 0.0263 0.0653 Col 0.0204 0.0709 0.3703 Tri 0.1403 0.069 0.2766 mean 0.0686 0.0632 La variance des coordonnées des lignes du premier bloc vaut 0.0511. Ce bloc représente 28.79% du poids total. Il contribue pour 21.5% à la première valeur propre.   Axis1 Axis2 Eph 215 256 Ple 110 27 Col 110 415 Tri 566  302 sum 1000 1000 Les trichoptères sont importants sur l'axe 1, les coléoptères le sont sur l'axe 2.  Eigen value decomposition among column blocks  Comp1 Comp2 weights jul82 0.0109 0.0706 0.1859 aug82 0.0414 0.1063 0.1797 nov82 0.017 7e-04 0.1054 feb83 0.1915 0.0321 0.1364 apr83 0.1384 0.0614 0.1895 jul83 0.0244 0.0736 0.2031 mean 0.0686 0.0632   Comp1 Comp2 jul82 30 207   aug82 108 302   nov82 26 1 feb83 381  69 apr83 383    184    jul83 72 236    sum 1000 1000 Donc la typologie de stations dépend du temps.  par(mfrow=c(3,2)) for (j in 1:6) {  cla <- unique(ardeche$dat.fac)[j]  x <- ww$co[ardeche$dat.fac==cla,]  scatter.label(ww$co,clab=0,cpoi=1,sub=as.character(cla),csub=2.5)  scatter.label(x,add.p=T,clab=1.5) }  scatter.class(ww$co,ardeche$sta.fac,clab=1.5,cell=0,axesell=F) scatter.label(ww$co,add.p=T,clab=0.75,label=as.character(ardeche$dat.fac))  
_____________________________________________________________________________  Logiciel R / Correspondances internes / them6.doc / Page 8 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
 
 
 
Il y a deux éléments évidents :   En novembre 1982, après une forte crue, la déstabilisation du substrat entraîne la mise en mouvement des organismes dans le cours d'eau et donc uniformise le contenu faunistique. La valeur typologique des relevés à cette date est quasi nulle.
_____________________________________________________________________________  Logiciel R / Correspondances internes / them6.doc / Page 9 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
  Dans les autres occasions, la station B située sur l'affluent Chassezac a une position originale et s'oppose en permanence aux stations A et surtout D. On a la partie permanente de la typologie stationnelle.  par(mfrow=c(2,2)) for (j in 1:4) {  cla <- unique(ardeche$esp.fac)[j]  x <- ww$li[ardeche$esp.fac==cla,]  scatter.label(ww$li,clab=0,cpoi=1,sub=as.character(cla),csub=2.5)  scatter.label(x,add.p=T,clab=1) }
 Le biologiste ( op. cit. ) distingue sur la carte des Coléoptères une ordination verticale sur les preferendums sur la vitesse du courant et sur celle des Trichoptères les espèces libres (f1<0) qui vivent sur substrat dur des espèces à fourreaux (f1>0). Comme AFC sous contrainte, l'ACI maximise la corrélation entre un score des lignes et un score des colonnes à travers la table de contingence. La contrainte imposée est que chacun des scores soit de variance inter-classe nulle. Les valeurs propres sont des carrés de corrélation canonique et la représentation classique est valide :  table.cont(ardeche$tab,ww$co[,1],ww$li[,1]) 
_____________________________________________________________________________  Logiciel R / Correspondances internes / them6.doc / Page 10 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
D. Chessel, J. Lobry - Biométrie et Biologie Evolutive - Université Lyon1
 On voit sur ce graphe la participation importante des Trichoptères (57%) dans la présence des espèces de ce groupe aux deux extrémités. Chaque groupe a une moyenne nulle sur les marges. On peut enfin associer 4 décompositions :    inter-inter  bb <- rowsum(as.matrix(ardeche$tab),ardeche$esp.fac) bb <- t(rowsum(t(bb),ardeche$dat.fac)) bb  apr83 aug82 feb83 jul82 jul83 nov82 Col 212 285 187 242 245 140 Eph 228 135 143 152 272 89 Ple 53 40 19 52 65 2 Tri 178 176 134 212 137 142 <-bb data.frame(bb) coa2 <- dudi.coa(bb,scan=F) sum(coa2$eig) [1] 0.04049    inter-intra  
_____________________________________________________________________________  Logiciel R / Correspondances internes / them6.doc / Page 11 / 11/10/03 http://pbil.univ-lyon1.fr/R/notes/notes1.pdf
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents