test de Pearson et coefficient de corrélation

joyeux_lapin13 · April 2010

Bonjour

J'ai fait une série de tests de corrélation via la méthode de Pearson sur une série de variables et je me suis rendu compte que le coefficient de corrélation et la p-valeur obtenus par Pearson se contredisent par moment.

Je cherche des infos sur ceci pour voir si mon test est faux ou si au contraire c'est normal et donc si avant de lire le coefficient de corrélation de deux variables il faut d'abord voir la p-valeur.

Merci de votre aide.

gerard0 · April 2010

Bonsoir.

Réponse tardive, mais je ne suis pas venu sur le forum depuis 8 jours.
Pour pouvoir te répondre, il faudrait une explication claire de ce que tu appelles "se contredisent".
D'ailleurs, j'aimerais être sûr de ce que tu appelles "tests de corrélation via la méthode de Pearson" d'une part et "la p-valeur obtenu[e] par Pearson" d'autre part.

Cordialement.

joyeux_lapin13 · April 2010

Bonjour, en fait ce que j'appel "se contredisent" c'est une p-valeur inférieur à 5% alors que mon coeff est de 0.2 ...

Mais pour avoir fait des recherches depuis j'ai cru comprendre que deux écoles s'opposent sur ce sujet, la première dit que cette p-valeur répond à la question "quand est ce qu'on décide que deux variables sont corrélées" et la seconde dit "Pearson a fumé sur ce coup ça n'a rien de logique faut juste cité cette p-valeur pour conforter la conclusion: ces deux variables sont fortement corrélés via leur coeff, preuve en est la p-valeur".

Pour ma part j'ai opté pour la seconde car ça m'a bien pris la tête.

Enfin plus précisément voici la page ou le test est détaillé: http://support.sas.com/documentation/cdl/en/procstat/63032/HTML/default/procstat_corr_sect013.htm

Merci à toi de t'interresser à mon problème.

gerard0 · April 2010

Bonjour.

Le problème avec les logiciels, c'est qu'ils calculent sans toujours dire quoi. Comme je ne sais pas quel est l'hypothèse du test (*), j'ai du mal à interpréter cette "p-valeur" : Dit-elle que les variables sont probablement corrélées ? Pourquoi pas après tout, surtout s'il y a un très petit nombre de valeurs ? Ou bien dit-elle que les variables sont non corrélées ? Ce qui arrive presque toujours s'il y a des milliers ou dizaines de milliers de valeurs (les tests ne sont pas adaptés à des échantillons réels de très grande taille).

En tout cas, tu as les données, sans doute aussi des raisons de penser que la corrélation ou la non corrélation doit être possible, les calculs ne peuvent que te servir à penser mieux la réalité. Ils ne remplacent pas la réflexion scientifique.

Cordialement.

(*) sans compter les hypothèses implicites, du genre "Normalité des résidus" qui n'ont aucune raison d'être vraies.

tournesol · June 2010

Bonjour,
il y a une situation dans laquelle on peut avoir simultanément une petite corrélation et une petite p-value. C'est lorsque que
- d'une part la corrélation réelle est petite mais non nulle (mettons 0.2 pour reprendre ton cas),
- d'autre part que l'échantillon est assez grand pour que le test puisse distinguer sur l'échantillon une différence entre 0.2 et 0.
Le test te dira alors que l'hypothèse de la corrélation nulle n'est pas compatible avec l'observation (d'où la petite p-value), et te donnera une estimation de la corrélation proche de 0.2.
Es-tu dans cette situation?
Cordialement.

Steven Neutral · June 2010

gerard0>>> C'est un test de $H_0:\{\rho=0\}$. Comme le dit tournesol, même si $\rho=0.00001$, le test sera rejeté si l'échantillon est assez grand.

gerard0 · June 2010

Merci, Steven.

Je soupçonnais ce genre de situation (*), mais j'attendais une réponse de joyeux_lapin13. J'attends toujours ...

Cordialement.

(*) Il y a aussi le cas des données exceptionnelles. pour un risque 5%, le test se trompe en moyenne une fois sur 20 (si H₀ est toujours vraie).

Steven Neutral · June 2010

J'ai l'impression que beaucoup de praticiens ne réalisent pas qu'ils font à tout va des tests d'une hypothèse nulle du type $H_0\colon\{\theta=0\}$. J'en ai vu un par exemple qui s'étonnait d'avoir détecté ainsi une "différence significative" entre les hauteurs moyennes de 2 types de plante alors que pour lui cette différence ne semblait pas significative au sens botanique.
D'ailleurs j'ai pu constater que le programme des cours de stats dans lesquels je suis intervenu à l'université est essentiellement constitué de ces tests d'hypothèse.

[La case >LaTeX.

AD]

gerard0 · June 2010

Tu peux aller plus loin, Steven.

De nombreux utilisateurs de statistiques font "des tests". Pas des tests d'hypothèse (ce qui pourrait montrer qu'ils ont conscience de l'outil utilisé), des tests. Voire même, ils "font un khi-deux" sans savoir qu'ils testent l'indépendance de deux variables statistiques.

Mais il est vrai que "enseigner des tests" c'est facile. Faire saisir ce qu'est un test d'hypothèse et comment c'est difficile à mettre en pratique, c'est bien plus délicat. Je sais, je l'ai fait, en tout cas, j'ai essayé avec mes étudiants.
Et je ne parlerai pas de ces mémoires de psycho dans lesquels il faut "une partie statistique avec un test".

Cordialement.

Steven Neutral · June 2010

Exact gerard0. "Un khi-deux", "un test de corrélation", ...
J'ai même eu un prof de biostats (mcf en médecine) qui semblait bien connaître le test de Fisher. Plus tard, quand il n'était plus mon prof, je me suis rendu compte qu'il ne savait pas du tout ce que c'était ce test. Il était même persuadé qu'aucun paramètre n'intervient dans ce test. Du coup moi j'ai mieux compris pourquoi je ne comprenais rien à son cours

cathy2 · December 2010

Bonjour,

Malgré des recherches sur le Net, je n'ai toujours pas compris la différence entre la méthode Spearman et la méthode Pearson... à part que la première est basée sur les rangs et la seconde sur les scores... Mais clairement et dans un langage simple (non scientifique), est-ce que vous pourriez me dire à quoi ça sert et quand les utiliser ?

PS : je ne suis pas une scientifique, ni une matheuse... c'est nouveau dans notre programme de français langue étrangère et les cours de mon prof (non scientifique aussi) sont incompréhensibles.

[Spearman et Pearson te remercient pour leur majuscule. AD]

gerard0 · December 2010

Bonsoir.

Le coefficient de corrélation (de Pearson) est l'analyse du lien linéaire entre les deux variables d'une série numérique double. Il est lié à l'analyse de régression linéaire.
Le coefficient de corrélation des rangs de Spearman est un cas particulier pour des variables ordonnées (donc pas nécessairement vraiment numériques), dont le caractère étudié pour calculer la corrélation par la méthode de Pearson est le rang de l'individu pour une certaine variable. On évite ainsi le caractère linéaire, en ne retenant que l'évolution dans le même ordre ou en ordre contraire.

A quoi ça sert : A mettre en évidence des liaisons entre des variables. Attention, la mise en évidence d'une forte corrélation ne dit pas qu'une des variables est conséquence de l'autre, seulement le fait que les variations de l'une permettent à peu près de prévoir celles de l'autre.
Quand faut-il les utiliser : Quand ça peut servir, comme tout outil.

Cordialement

Koniev · December 2010

Bonjour
Moi aussi j'ai lgtps cherché à comprendre la relation entre: coeff de correl et p-value.
maintenant je ne tiens compte du coeff que si p<0.05.
Le logiciel MINITAB donne les 2 renseignements en même temps
Si p<0.05 je prends le coeff comme valable si p>0.05 je considère qu'il n'y a pas lieu de penser à une corrélation due à une cause autre que le hasard.
Cordialement
Koniev

cathy2 · December 2010

@ Gerard0
@ Koniev

Bonsoir, merci pour vos réponses, votre aide et pardon d'avoir oublié les majuscules à Pearson et Spearman....

(@ AD)

Je trouve en général les calculs décourageants (utilisez-vous aussi les logiciels du type ANOVA, XLSTAT ?), mais c'est intéressant d'appliquer ces méthodes dans le cadre de nos travaux de recherche en didactique du FLE (Français Langue Étrangère).

Quand on essaye de comprendre la relation qui existe entre certaines variables, est-ce que cela signifie qu'au départ, il faut que les deux éléments que l'on associe soient opposés? (ex. "les hommes préfèrent les blondes")

Et comment peut-on expliquer que l'on peut prévoir une préférence... au-delà du fait que l'on peut fausser les résultats pour servir un intérêt (manipulation de l'électorat par ex.)... est-ce que tout est forcément mathématique ou cela peut être aussi culturel?

Bien cordialement,
Cathy

cathy2 · December 2010

Re-bonsoir... Mon problème à résoudre est le suivant : c'est la concordance au plan sémiologique du message de la SNCF véhiculé par deux pochettes (= document authentique utilisé en classe de FLE) avec la perception du public, du consommateur.
En étude qualitative, de par la technique de groupe (public scolaire) que je pourrai comparer à la technique individuelle (public social), je sais que je dois m'attendre à différents profils, d'où une réaction ou une contre-réaction de suscitée. Sur le terrain, des préférences justifiées sont apparues (en gros, le public a dit pourquoi il préférait telle ou telle pochette).
En étude quantitative, je dois à présent savoir combien ils sont dans chaque catégorie et quelles sont leurs caractéristiques. Les données comportementales d'un côté, l'expérimentation de l'autre... c'est dans l'expérimentation qu'entrent Pearson et Spearman. D'où ma volonté d'y voir plus clair.
Je pense que la méthode Spearman est celle qui correspond le mieux à mon étude qualitative (j'ai les rangs grâce aux préférences, aux différents attributs, ..).

Qu'en pensez-vous?

D'avance merci.

Cordialement,
Cathy

gerard0 · December 2010

Bonjour Cathy.

Quand on essaye de comprendre la relation qui existe entre certaines variables, est-ce que cela signifie qu'au départ, il faut que les deux éléments que l'on associe soient opposés? (ex. "les hommes préfèrent les blondes")

Opposés, je ne crois pas, mais suffisamment distinguables pour que la question ait un sens, et dans le même domaine : "qui est le meilleur, Obama ou Zidane ?" et "préférez vous prendre le train ou prendre le TGV ?" sont des questions qui susciteront des non réponses, des réponses "au hasard" et une exploitation ultérieure impossible.

comment peut-on expliquer que l'on peut prévoir une préférence

On ne le prévoit pas, on la constate. Puis, en supposant que les choses ne vont pas changer, prévoir les conséquences de cette préférence. J'exclus ici la manipulation mentale qui justement essaie de faire changer les préférences.
Pour l'instant, il n'y a rien de mathématique là dedans.

Pour ton deuxième message, je reste dans l'incompréhension. Je ne sais pas ce que tu vas mesurer et dans quel cadre. Je ne vois pas où intervient la corrélation, ni même ce qui est ordonné (rangs). Dans ce que je comprends, j'ai plutôt l'impression que tu compares des groupes.

Cordialement.

Cathy3 · December 2010

@Gerard0

Bonsoir Gerard0

Merci pour ta réponse, la mienne venant tardivement dû à un rhume et à une réflexion personnelle sur mémoire. J'annexe les deux documents sur lesquels porte mon mémoire. Ce sont deux images publicitaires qui proviennent de deux pochettes de la SNCF. Ces images présentent des similitudes et des différences, ce qui est nécessaire lorsque l'on fait une étude sémiologique. Forcément il y a des messages à décoder. La perception de ces message peut être différente au sein du public (le public social c'est les usagers de la SNCF interrogés au hasard, et le public scolaire c'est un petit groupe d'étudiants étrangers en France et une classe ZEP de maternelle en France). Cette perception sera forcément culturelle (j'ai affaire à un public hétérogène) pour aboutir à une langue-culture partagée.
Ce que je souhaite mesurer c'est l'impact de l'image (presque en décalage avec la réalité) dans l'apprentissage du français et ce dans une situation d'expression orale.
Mon prof m'a demandé d'évoquer la conception d'un questionnaire et de dire quelle serait l'étude quantitative la plus appropriée. Tout en sachant que pour l'étude qualitative on a mis en évidence la concordance d'un point de vue linguistique du message véhiculé par les images de la SNCF avec la perception du public, consommateur. La quantitative s'adressera à des profs pour mesurer quelles sont les activités de communication qui sont les plus efficaces à mettre en place dans leurs cours à partir d'images pour atteindre les objectifs pédagogiques qu'ils se sont fixés dans une situation d'apprentissage orale, et pourquoi justement ça marche mieux avec des images.
J'ai essayé de faire simple. Finalement, ça se trouve, l'étude quantitative ne m'est peut-être pas utile et je suis en train de me prendre la tête pour rien... Dans tous les cas, je te remercie de ton attention. Je ne veux pas non plus abuser du forum...

17984

Nelle0 · October 2014

Bonjour à vous tous
je suis face à un problème dans le cadre de la rédaction de mon mémoire. en effet j'étudie l'impact du type d'occupation des sols (fotêts, savanes, zone d'agriculture, zone de jachère) sur la taille, la masse et la diamètre des vers de terres dans des sites d'études bien précis. J'ai construit des nuages de points en utilisant des variable deux à deux (masse et taille par exemple) en fonction des types d'occupation des sols et par sites et la je ne sais pas trop si il est primordiale pour moi ou non de construire des droites de regressions et pourquoi.
Mon véritable problème réside au niveau du fait que la différence entre droite de regression, nuage de point et coefficient de corrélation reste encore flou pour moi.
Merci davance pour votre compréhension.
Cordialement.

test de Pearson et coefficient de corrélation

Réponses

Lettre d'information