Dépassons les corrélations !

La science est la recherche des mécanismes de phénomène, ce qui passe bien souvent par la recherche de relations entre des séries de mesures : ayant identifié un phénomène, on le caractérise quantitativement, et vient ensuite le moment où, à partir de toutes les données, on cherche des équations à partir de séries de données. Les données sont  alors "ajustées", ce qui ne signifie pas que l'on trafique quoi de quoi que ce soit , mais plutôt que l'on cherche des variations d'une variable en fonction d'une autre.

Par exemple, quand on s'intéresse à la résistance électrique, on cherche les variations de l'intensité du courant en fonction de la différence de potentiel.

 

Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée. La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité.

Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part, et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse.

Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation (par exemple, des coefficients de corrélation linéaire de Bravais-Pearson) et de bien s'empêcher de penser à des causalités quand il n'y en a pas. Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser.

Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand nos jeunes amis font -de façon extrêmement élémentaire- des "droite de régression", alors ils apprennent  à afficher un nombre que l'on note souvent R2. Mais c'est une façon rapide de se débarrasser du problème, et elle ne dit d'ailleurs rien d'autre que ce que l'on voit (avec de surcroît des cas terribles, mais c'est une autre histoire).

Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la répartition de ces résidus, aléatoire ou pas, et leur amplitude aussi, bien sûr, doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument.

C'est cela la direction où l'on veut aller, plutôt que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème.

C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.


6 commentaires pour “Dépassons les corrélations !”

    • verdurin Répondre | Permalink

      Très complet est flatteur, mais faux.
      Je crois que lire un livre de statistiques vous ferait du bien.
      En particulier : si les résidus ne sont pas aléatoires l'utilisation du coefficient de corrélation est toujours critiquable.
      Et, en général, R² ne désigne pas la somme des carrés des résidus.

  1. Igael Azoulay Répondre | Permalink

    Sujet délicat tant il intervient dans les interprétations de la mécanique quantique non relativiste et par conséquent sur des réputations et des subventions. Vous pouvez écrire ce que vous voudrez sur le sujet, ce sera apprécié mais sans conséquence sur la marche actuelle des sciences!
    En tous les cas, merci pour ce billet rafraichissant 🙂

Publier un commentaire