Mesure de la corrélation

HeleneL · August 2017

Bonjour,

Je suis actuellement en deuxième année de master géologie et mon sujet de fin d'études porte sur l'évaluation de la corrélation entre les résultats obtenus à partir de deux essais différents.

Je m'excuse d'avance si je n'emploie pas les bons termes mathématiques.

J'aimerais savoir s'il y a une corrélation entre les essais en étudiant la corrélation entre les résultats obtenus par les deux méthodes. Les résultats sont des variables quantitatives continues.

Au départ j'ai réalisé des graphiques sous Excel en mettant en abscisses les résultats d'une méthode et en ordonnées les résultats de l'autre méthode pour visualiser la dispersion du nuage de points. Sur ces graphiques j'ai fait apparaître la droite de régression linéaire et le coefficient de détermination R².

J'ai ensuite calculer toujours sous Excel coefficient de corrélation r.

Cependant, après quelques recherches et quelques souvenirs, il faut vérifier la significativité du r calculé en faisant un test d'hypothèse. J'ai donc voulu réaliser un test de corrélation linéaire = test de Pearson. Cependant, certaines conditions d'application étaient nécessaires, notamment la distribution des variables selon la loi de Laplace-Gauss, la variance constante de Y pour toute valeur de X et une relation linéaire entre X et Y.
J'ai donc tenté de vérifier la "normalité" de la distribution en utilisant la fonction "ajustement d'une loi de probabilité" dans modélisation des données de XLSTAT. Apparemment, la distribution de mes variables ne suit pas une loi de Gauss...

Il faudrait donc que je réalise un test de corrélation de 2 variables quantitatives non paramétrique.
Après quelques recherches, il semblerait que le pendant de Pearson en non paramétrique serait Spearman.

J'ai réalisé ce test sur XLSTAT mais je ne sais pas comment l'interpréter et j'avoue que je commence à être un peu perdue entre tout ces tests et tout ce qu'il faut vérifier.

Pourriez-vous m'aider avec mon sujet sur les corrélations ? Ai-je appliquer les bonnes méthodes ? Avez-vous des suggestions pour mon analyse ?

D'avance merci beaucoup.

gerard0 · August 2017

Bonjour.

Le test de significativité de r n'a pas vraiment d'utilité si r est proche de 1 (ça devrait être ton cas) ou de -1. Si ce n'est pas le cas, aucun intérêt de rechercher la significativité, puisque tu as déjà une réponse forte : Les valeurs entre essais ne sont pas liées linéairement.

Par contre, quand on examine des valeurs obtenues par 2 méthodes différentes sur les mêmes mesures, on espère trouver Y=X, au pire Y=X+b (erreur systématique d'une ou des deux mesures). Si on obtient Y=2X-3, on est mal barré, surtout si r n'est pas quasiment égal à 1 (possibilité de rectifier une des mesures).

Donc
* si ton r est de l'ordre de 0,9 ou plus, et si le modèle est Y=aX avec a quasiment égal à 1, tu peux conclure.
* si ton r est faible, inutile de perdre ton temps avec des statistiques. Il vaut mieux examiner ce qui s'est passé dans les mesures pour comprendre cette dispersion.

Cordialement.

HeleneL · August 2017

Bonjour,

Merci pour ta réponse rapide.

En réalité, avec les deux méthodes on n'obtient pas tout à fait la même chose... D'après la littérature dans certains types de sol je devrais obtenir Y/X = 1,4 à 10.

La plupart des r que j'ai calculé sont loin de 1 malheureusement, c'est pourquoi dans ma série de valeurs j'ai essayé de faire un tri en fonction de la localisation, du type de dépôt, de la présence d'eau mais même en faisant ces catégories ca ne marche toujours pas et je pensais que ça pouvait s'expliquer par le fait que les variables ne suivent pas une loi normale ou parce que la relation n'est pas linéaire.

Donc à ton avis je devrais juste faire apparaitre mes valeurs de r dans mon rapport et analyser s'il y a ou non corrélation. Et si et seulement si il y en a une faire un test de significativité ?

Le fait qu'il n'y ait pas de corrélation pourrait-il s'expliquer par des valeurs exceptionnelles ? Si oui comment savoir quelles sont ces valeurs ? Parce que des études similaires ont été menées par des scientifiques renommés dans la profession et ils arrivaient à trouver une corrélation donc je suppose que c'est moi qui ai quelque chose qui cloche dans mon étude...

D'avance merci

gerard0 · August 2017

A priori, il n'est pas nécessaire que les variables soient Normales pour qu'il y ait corrélation (*). Par contre, on suppose que les résidus (écarts entre Y estimé pour x_i et y_i) peuvent bien provenir d'une variable gaussienne : On suppose que Y=aX+b+e_i où les e_i suivent une loi Normale.

Je crains que les stats ne puissent te faire avancer, que les problèmes soient plus de nature "géologique" (chimique; physique, ...) que de calcul sur les valeurs. Si d'autres ont trouvé des corrélations, il faudrait avoir les articles pour savoir exactement ce qu'ils ont fait. Il est possible que tu ais un mélange de cas, ou bien des valeurs anormales, ou des erreurs de méthodes, ou ... mais ce n'est pas en stats que tu trouveras ce qui se passe.

Il serait bien que tu voies aussi ça avec ton responsable de sujet.

Cordialement.

(*) heureusement, parce qu'on fait parfois des corrélations entre des variables discrètes, par nature non gaussiennes.

HeleneL · August 2017

D'accord merci beaucoup pour ton aide.

Bonne fin de journée.

Mesure de la corrélation

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 46