APPROCHE CHIMIOMETRIQUE DES RESULTATS D'UNE ANALYSE CHIMIQUE

De
Publié par

APPROCHE CHIMIOMETRIQUE DES RESULTATS D'UNE ANALYSE CHIMIQUE Christian J. Ducauze et Arlette Baillet-Guffroy

  • échantillon analytique

  • démarche

  • réflexion sur la façon

  • analyse chimique

  • donnée analytique

  • indépendance statistique

  • loi normale

  • part d'erreur


Publié le : mardi 19 juin 2012
Lecture(s) : 36
Source : agroparistech.fr
Nombre de pages : 22
Voir plus Voir moins
   
 
              
  
APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE
Christian J. Ducauze et Arlette Baillet-Guffroy
                    
 
APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE  -Résumé-
 1-Introduction : définition d’une analyse chimique    - L’analyse chimique peut se définir comme une suite d’opérations élémentaires statistiquement indépendantes les unes des autres  2- Obtenir une donnée analytique : démarche habituelle des analystes    - Le résultat d’une analyse doit être considéré comme une variable aléatoire continue  - Description statistique d’une distribution de valeurs expérimentales (résultats des n répétitions d’une analyse) : moyenne et estimation de l’écart-type   - Une loi de probabilité théorique : la loi Normale. Notions de mode (= valeur probable = espérance mathématique de la variable X), de variance , de risque de première espèce   - Expression classique du résultat (donnée analytique) : moyenne et intervalle de  confiance estimé de la moyenne   - Elimination des « aberrants »  3- Réflexion sur la démarche des analystes   - La démarche probabiliste habituelle : ajustement des résultats d’analyse obtenus expérimentalement à une loi Normale (par suppression des valeurs extrêmes ou par transformation de la variable)  - Une démarche non probabiliste : la donnée analytique est fournie par la médiane de la distribution des résultats expérimentaux  4- Etude d’un exemple   - Présentation de l’étude : estimation de la concentration en plomb dans du foie de bœuf à partir de 20 analyses statistiquement indépendantes les unes des autres  -Ajustement à la loi Normale  (tests d’ajustement) par suppression des valeurs extrêmes (les « aberrants ») ou par transformation de la variable  - Comparaison des données analytiques produites à la suite d’une démarche probabiliste à celles que fournit une démarche non probabiliste  5- Conclusions et discussion   - Pertinence de la démarche probabiliste : application du Théorème Central Limite  - La médiane est préférable à la moyenne pour exprimer le résultat de l’analyse, c’est-à-dire la donnée analytique attendue  - La moyenne est utile pour repérer les valeurs « aberrantes » qui ont été obtenues
 
 
1
 
 
APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE
 
1 – Introduction : définition d’une analyse chimique  Cette approche chimiométrique est une réflexion sur la façon dont peuvent s’appliquer quelques notions statistiques simples et bien connues à un ensemble de résultats d’analyses chimiques. Il est donc nécessaire d’avoir compris ce qu’est une analyse chimique : on peut la définir comme une suite d’opérations élémentaires, indépendantes les unes des autres – au sens statistique de ce terme –, qui commencent au moment du prélèvement l’échantillon analytique (prise d’essai) et aboutissent à un résultat, exprimé le plus souvent sous forme d’une concentration .  Quelques précisions sont utiles pour éclairer cette définition : 1.  Chaque « opération élémentaire » correspond à une action particulière de l’expérimentateur, par exemple « effectuer une pesée », « prélever un volume connu de réactif », « porter à une température déterminée » ou encore « lire le résultat d’une mesure », etc. 2.  « Indépendance statistique » veut dire que l’erreur expérimentale associée à chaque opération élémentaire est sans influence sur les autres ; par exemple, l’erreur de lecture sur un appareil de mesure ne dépend pas de l’erreur de pesée et inversement. 3.  On a pris l’habitude de regrouper les différentes opérations élémentaires en quelques étapes principales, qui sont présentées sur la figure 1 .  Le but est de mieux faire comprendre ici la démarche suivie pour élaborer une donnée chimique – c’est « le » résultat attendu – à partirdes résultats d’analyse qui ont été obtenus. On va tout d’abord décrire la démarche habituelle de l’analyste pour essayer ensuite, à l’aide d’un exemple, de mieux comprendre son fondement et juger de sa pertinence.  On supposera que la méthode d’analyse choisie a été préalablement validée, qu’il s’agit par exemple d’une méthode de référence. Autrement dit, on fait l’hypothèse que cette méthode est sensée fournir une valeur juste, c’est-à-dire acceptée comme telle par les différents interlocuteurs que concerne cette analyse.
 
 
 
2
 
 Prélèvement de l’échantillon analytique Conservation
Traitement de l’échantillon
Mesure
Etalonnage
Conversion du signal analytique
Résultat d’analyse
? A interpréter et à valider pour pouvoir disposer d’une donnée analytique
Figure 1 : Principales étapes d’une analyse chimique
2 - Obtenir une donnée analytique : démarche habituelle des analystes En appliquant la méthode d’analyse choisie à l’échantillon analytique, on obtient un premier résultat x  – en général la concentration de l’analyte (élément, ion ou molécule) dans l’échantillon – qu’on pourrait considérer a priori  comme la valeur recherchée. Mais l’expérimentateur averti a aussitôt un doute car il sait qu’en répétant la même analyse sur le même échantillon, il a peu de chances de retrouver exactement le même résultat ; il a conscience du fait que le résultat obtenu contient une part d’erreur et que cette erreur ne sera pas identique d’une analyse à l’autre ; il lui est en effet difficile de reproduire chaque fois, de façon identique, toutes les opérations élémentaires de l’analyse. De fait, il faut considérer que le résultat obtenu contient certes la valeur recherchée T  mais aussi une erreur – appelée « aléa expérimental » et désignée par e  – qui résulte de l’erreur expérimentale attachée à chaque opération élémentaire de l’analyse. On pose ainsi implicitement que le résultat x i  obtenu à la suite d’une analyse ( i ) est : x i = T + e i (1)  
 
 
3
 
e i  étant une variable aléatoire et T , la Teneur ou valeur vraie (« True value »), qui est une constante pour l’échantillon considéré.  Il y a donc lieu de considérer que x i  est une variable aléatoire,  puisque c’est la somme de la variable aléatoire e i et de la constante T . Comme e i , x i  peut théoriquement prendre une infinité de  valeurs ; en d’autres termes, entre deux valeurs parfaitement déterminées de x i , une infinité de valeurs sont possibles et, si ce n’est pas le cas en pratique, c’est parce que les appareils de mesure utilisés pour l’analyse fournissent des valeurs arrondies, que le statisticien nommerait « valeurs discrètes ». Cependant, d’un point de vue théorique, nous sommes bien amenés à admettre que, x i  pouvant prendre une infinité de valeurs, le modèle (1) conduit à définir le résultat d’une analyse comme une variable aléatoire continue .  Le statisticien dira qu’il associe au résultat d’une analyse la variable aléatoire continue X qui peut prendre une infinité de valeurs x i. Son réflexe sera alors de rechercher la loi de distribution de X , autrement dit d’essayer de comprendre comment sont statistiquement distribuées les valeurs x i de X .  L’analyste a le même réflexe : en répétant plusieurs fois son analyse, il va chercher à se faire une opinion sur la dispersion des résultats x i et à tirer une conclusion qu’il exprimera en fournissant la donnée analytique.  L’analyse va donc être répétée n  fois, n  étant d’autant plus grand que la dispersion attendue des x i  est plus forte. La suite est connue : partant des n valeurs x i  obtenues, on va calculer une moyenne x et une es e ` timation d l’écart-type  s , soit : n x i 1 1 x 1 i  n n ( x % x ) 2 i i 1 s 1 1  n % 1  Il faut s’arrêter un instant sur cette expression de s. Il s’agit, en effet, d’une estimation de l’écart-type et non de l’écart-type Μ , tel que le définit le statisticien. En effet, lorsque le statisticien étudie la loi de distribution d’une variable aléatoire X , il définit tout d’abord ` x , qui est la moyenne arithmétique d’un échantillon de n valeurs x i de la variable X , pour considérer que lorsque n augmente indéfiniment, ` x tend vers une valeur limite m , appelée moyenne de la  population , soit : n x i m 1 lim x 1 lim i 1 1  (4) n | υ n | υ n On dit aussi que µ est la valeur probable  de X  ou encore l’espérance mathématique  de X , désignée par E( X ), ou enfin le mode de la distribution .  
 
 
(2)  
(3)
4
 Pour caractériser la dispersion des x i , le statisticien introduit un autre paramètre statistique, la variance 2 qui représente la moyenne de la population des valeurs ( x i  %  m ) 2 , soit :  Μ n ( x i % m ) 2 Μ 2 1 lim i 1 1  (5) n | υ n La racine carrée Μ de la variance est appelée écart-type : n ( x i % ) 2 Μ 1 lim i 1 1  (6) n n Cette grandeur s’exprime donc dans la même unité que x . On voit immédiatement la différence, d’une part, entre les expressions (2) et (4), d’autre part entre les expressions (3) et (6) : les expressions (4) et (6) sont définies pour la variable X  qui prend une infinité de valeurs, dans le cadre d’une loi de probabilité théorique ; par contre, dans les expressions (2) et (3), on ne considère qu’un échantillon de la population renfermant un nombre fini de n  valeurs de la variable X  ; on n’a alors réalisé qu’un petit nombre d’analyses (la plupart du temps, n = 3 ou 5, parfois 10), à partir desquelles on estime, à travers la moyenne calculée ` x (2), le mode m de la distribution, ce qui fait perdre un degré de liberté – car les valeurs x i sont liées par (2) – et l’on en tient compte dans (3) oùla somme des carrés des écarts à la moyenne est divisée par ( n  – 1) au lieu de n . Il s’agit bien là, comme il a été précisé au départ, d’une estimation de l’écart-type. Comme Μ , s  s’exprime dans la même unité que x : si x  s’exprime dans une unité de concentration, il en est de même de s  qu’on va utiliser pour donner l’intervalle de confiance de la teneur recherchée : x t 1 %a / 2, Η sTx # t 1 %a / 2, Η s (7)  % σ σ n n Dans cette expression, qui résulte de la loi de distribution de la moyenne de n valeurs x i ,  t 1-a∋ 2, Η  représente le critérium de Student ( t  – Student) que l’on peut lire dans les tables pour la probabilité choisie P 1 1 -a  et le nombre de degrés de liberté Η  qui est ici, comme vu précédemment, Η = n – 1.  En admettant par exemple qu’une même analyse a été répétée 5 fois sur le même échantillon et que l’on choisisse de donner un intervalle de confiance à un niveau de probabilité de 95 % ( P = 0.95), on va rechercher dans la table de Student la valeur de t pour cette probabilité et un nombre de degrés de liberté égal à 4. On trouvera dans ce cas : t 1 %a /2, Η = t 0.975,4 = 2,776 Les limites de l’intervalle de confiance s’expriment en effet en fonction de t 1 % a∋(∃Η  et, si le niveau de probabilité choisi est P  = 0,95, le risque d’erreur a  = 1 – P  = 0,05 est partagé en deux risques égaux a /2 = 0,025, la loi de probabilité étant ici symétrique.  Cet intervalle de confiance estimé de la moyenne  (7) représente l’intervalle dans lequel on affirme que doit se trouver la teneur  T  recherchée, en prenant le risque a  (ici, a  = 5%) de rejeter à tort pour T toute valeur se trouvant en dehors de l’intervalle . C’est la façon correcte d’exprimer le résultat attendu et, dès lors, on comprend qu’il faut absolument éviter d’exprimer ce résultat – comme c’est hélas ! bien trop souvent le cas – sous la forme x  ±  Μ  ` qui introduit la confusion, et ce pour plusieurs raisons : x  ±  Μ  n’a pas de sens pour un  5  
 échantillon fini ; par contre, lorsqu’on étudie la distribution d’une population, c’est-à-dire un nombre infini de valeurs, dans le cadre d’une loi de probabilité théorique, 68 % environ des valeurs de la variable aléatoire X  sont comprises dans cet intervalle si X suit la loi Normale. Dans ce cadre, on pourrait également affirmer qu’environ 95 %, des valeurs vont se trouver comprises dans l’intervalle ` x  ± 1,96 Μ . Mais en pratique, à la suite d’une série d’analyses, on ne dispose que d’un échantillon fini, c’est-à-dire d’un nombre fini de valeurs, et l’on ne peut alors accéder qu’à une estimation de l’écart-type tirée de ces valeurs. On en tient compte en utilisant le critérium t  de Student qui, si notre échantillon comporte 5 valeurs (5 résultats d’analyse), vaut 2,78 au lieu de 1,96. Student a en effet introduit des coefficients qui permettent d'estimer l'écart-type de sécurité à partir d'un échantillon limité, sachant que la moyenne calculée sur cet échantillon se distribue selon la loi Student.  On trouve aussi parfois, dans la littérature, un intervalle de confiance exprimé sous la forme : x % t 1 %a / 2, Η s σ σ x # t 1 %a / 2, Η s (8)  Que représente cet intervalle ? On peut affirmer que, partant de l’échantillon étudié, on a une probabilité P  = 1 -a  de trouver toute nouvelle valeur de la variable X  dans cet intervalle. Autrement dit, si l’analyse a été répétée 5 fois, partant des 5 résultats d’analyse obtenus, on peut calculer ` x et s ; si l’on choisit alors une probabilité de 95 %, soit t 1 % a∋(∃Η  = t 0.975,4 = 2,78 , tout nouveau résultat d’analyse doit se trouver pour cette probabilité dans l’intervalle :   σ  x + , s x  % 2,78 s  σ   ` 2 78  Cet intervalle intéresse parfois l’expérimentateur, s’il décide par exemple de s’assurer de la qualité de sa méthode d’analyse en effectuant périodiquement une seule analyse sur un échantillon dont il connaît la teneur moyenne ` x. On utilisera dons cet intervalle pour construire une carte de contrôle (voir le chapitre : « Validation une méthode d’analyse »).  Mais lorsqu’il s’agit d’exprimer la donnée recherchée, c’est l’intervalle de confiance estimé de la moyenne qui doit être retenu.  La dernière partie de la démarche aura pour but d’essayer de réduire cet intervalle. Or, lorsqu’on a choisi le nombre de répétitions n  et le risque de première espèce  a , c’est uniquement en diminuant s , c’est-à-dire en fait la somme des carrés des écarts des x i  à la moyenne ` x ,  qu’il sera possible d’avoir un intervalle plus petit. n On va donc rechercher si dans ( x i % x ) certains termes ne seraient pas trop élevés, et si i 1 1 donc certaines valeurs x i  ne seraient pas trop éloignées de ` x . Pour les repérer, différents tests statistiques sont utiles qui, en fait, indiquent que la probabilité était faible d’obtenir telle ou telle valeur très éloignée de la moyenne ; on s’empresse alors trop souvent de la rejeter en la qualifiant de « donnée aberrante », le test statistique – quel qu’il soit et même s’il est un excellent outil – ayant ce défaut majeur de donner bonne conscience à celui qui l’emploie : l’analyste laisse en effet le test décider à sa place comme gage de son impartialité, sans s’interroger davantage sur la signification de ce test ou sur les raisons qui l’ont conduit à trouver ces fameuses données aberrantes. De plus, en éliminant des valeurs qu’on a pourtant trouvées, on perd une partie de l’information collectée, en n’en tenant par compte dans l’expression finale de la donnée, dans la donnée analytique qu'on produit. Ces quelques  6
 réflexions poussent à essayer de mieux comprendre la démarche qu’on vient de décrire, telle qu’elle est résumée sur la figure 2 , pour juger de sa pertinence.  n résultats Moyenne  É cart-type Intervalle de confiance estimé estimé de la moyenne    Élimination des « aberrants »   Nouvelle moyenne et Donnée analytique nouvel intervalle de confiance estimé  Figure 2 : Démarche classique de validation des résultats d’une analyse  3 - Réflexion sur la démarche des analystes La démarche précédemment décrite est une démarche probabiliste résumée sur la figure 3 .  Figure 3  Partant du modèle posé (1), la démarche probabiliste consiste à rechercher la valeur probable m  de la variable aléatoire continue X , à partir de l’échantillon des n  valeurs x i  de X  dont on dispose. Pour exprimer simplement la même chose, on va dire qu’ayant répété n  fois l’analyse, on essaie de trouver, à partir des n  résultats d’analyse x i , la valeur T  (la plus) probable, substituant ainsi à T le mode de la distribution. Dans le cadre de cette démarche, on substitue ainsi au modèle (1) un nouveau modèle : x i = m + e i   (1a)  Puis on a exprimé ce mode comme la moyenne arithmétique (2) des n valeurs x i , en acceptant a priori  que mode et moyenne peuvent être confondus, ce qui est vrai dans le cas de la loi Normale, mais pas dans tous les cas. De fait, cette acceptation, comme toute la suite du raisonnement, s’est appuyée sur une hypothèse implicite : la distribution des valeurs x i  que peut prendre la variable X peut être décrite au moyen d’une loi de probabilité théorique qui est la loi Normale ( A-1, A-2 et A-3 ). Est-ce vrai ? Or nous n’avons pas cherché à vérifier cette hypothèse sur laquelle on peut pourtant émettre de sérieux doutes. En effet, l’analyste confirmé sait fort bien que s’il répète la même analyse un nombre suffisant de fois, il a peu de chances d’échapper à ces valeurs extrêmes, éloignées de la moyenne et habituellement qualifiées de « valeurs aberrantes ». Or les tests statistiques  7
 
( A-4 ) sur lesquels il s’appuie pour éliminer ces dernières sont en réalité fondés sur le fait qu’une valeur sera éliminée comme ayant une faible probabilité d’appartenir à la distribution si, après l’avoir éliminée, la distribution des valeurs conservées s’approche davantage de la loi Normale. Cela veut bien dire qu’ayant fait, au départ, l’hypothèse que la distribution des valeurs x i  peut être décrite au moyen de la loi Normale, on cherche à s’y ramener coûte que coûte pour pouvoir substituer au mode la moyenne, comme expression de la donnée analytique.
x i   = T + e i   Démarche probabiliste Démarche non probabiliste
= x i    µ + e i   Σ   x  i  Υ  T  ~ x    édiane    
st-ce une loi oui ENormale ? x i    x   e i  non Ajustement à la loi oui Normale Par suppression des valeurs extrêmes Par transformation de la variable
n  x  i  T   x   i  1   n  
Figure 3 : Démarches possibles pour exprimer une donnée analytique
 
 4 - Étude d’un exemple Dans une de nos anciennes publications [1] , nous avons eu l’occasion de tester la validité de cette hypothèse, en effectuant 20 répétitions d’une analyse de plomb sur 20 prélèvements indépendants provenant d’un même échantillon de foie de bœuf lyophilisé ; une vingtaine de répétitions représentent en effet un minimum si l’on veut pouvoir tester l’ajustement d’une distribution à la loi Normale.
                                                 1  Ducauze C., Feinberg M., Exprimer le résultat d’une analyse : une approche statistique et informatique, 1984 , Analusis, 1, 26-31
 
 
8
 Tableau 1 : Analyse du plomb : résultats obtenus  Numéro X 1 1,165 2 1,135 3 2,185 4 1,167 5 1,135 6 1,945 7 1,180 8 1,105 9 0,975 10 1,200 11 1,040 12 1,095 13 1,210 14 0,965 15 1,210 16 1,232 17 1,362 18 1,232 19 1,300 20 1,242   Partant de ces 20 résultats obtenus après 20 analyses indépendantes ( Tableau 1 ), on peut se faire une première idée de leur distribution en calculant quelques paramètres statistiques simples, présentés dans le tableau 2  : on va calculer la moyenne, l’estimation de la variance et de l’écart-type, puis l’estimation des moments centrés d’ordre p de la distribution (avec p =  2, 3, 4), un moment centré d’ordre  p étant défini par la relation :  n ( x i % m ) p m p 1 lim i 1 1 n  (9) n  La même relation peut être utilisée pour calculer l’ estimation du moment centré d’ordre p , lorsque n est assez grand.  L’estimation des moments d’ordre 2, 3 et 4 permet de calculer ensuite les coefficients d’excentricité et d’aplatissement de Fisher, soit respectivement g 1  et g 2 , qui renseignent sur l’ajustement de la distribution à la loi Normale.  On considère qu’il y a ajustement si g 1 = 0 et g 2 0 =  9   
 Tableau 2 : Étude de la distribution des valeurs expérimentales (20 répétitions d’une analyse de plomb sur un même échantillon de foie de bœuf lyophilisé)  Paramètre statistique Définition Résultat obtenu n  Moyenne 1 1 x i 1.254 i x 1  n  2 ( x i  %  x ) 2 0 088 Estimation de la variance s 1 ( n - 1) . Estimation de l’écart-type s 1 s 2  0.296 n  ( % ) 2 0. Estimation du moment d’ordre 2 x i x m i 1 1  083 2 1 n n 3 Estimation du moment d’ordre 3 ( x i % x )0.053 1 m 3 1 i 1  n n Estimation du moment d’ordre 4 i 1 1 ( x i % x ) 4 0.050 m 4 1  n    g 1 n i n 1 ( x i % x ) 3 32 1 2 m 33 Coefficient d’excentricité de Fisher 1 1  2.053 2 in 1 ( x i % x ) 2 m 2 1  n Coefficient d’aplatissement de Fisher n 1 ( x i % x ) 42 3 m 42 3 3.449  n m g 2 1 1 i 1 1 ( % ) 2 % 1 2 % x i x i   Il apparaît immédiatement, en considérant les valeurs de g 1 et de g 2 , que la distribution des 20 répétitions ne s’ajuste pas à la loi Normale : il doit y avoir un certain nombre de valeurs extrêmes ( g 2  2  0), vraisemblablement supérieures à la moyenne ( g 1  2  0) ; on sait en effet qu’une distribution peut être représentée par une courbe dont la Figure 4 donne l’allure, suivant que g 1 et g 2 sont positifs ou négatifs.       10
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.