Association de deux mesures quantitatives

Bonjour
Comment mesurer la relation, la dépendance entre deux mesures quantitatives ? En cours la seule chose que j'ai vue est la régression linéaire (avec le $R^2$ associé). Or plusieurs choses me posent problèmes.

- Il se peut que $Y=f(X)$ et je ne connais aucun moyen automatique et pratique de déterminer/deviner $f$ (il s'agit d'un problème de régression donc il serait plus adéquat d'écrire $E[Y|X]=f(X)$). Les applications que j'ai vues supposent (parfois sans même poser le graphique ce qui me parait totalement débile) la plupart du temps que $f$ est linéaire (voir polynomiale ou un polynôme en regardant le scatterplot).

- Actuellement j'ai un nuage de point complètement éparpillés sans réelle structure, puis-je en déduire l'indépendance ? Quel test entre variables quantitatives connaissez-vous pour mesurer l'indépendance de 2 variables quantitatives ?
https://snag.gy/1H4NX0.jpg

- De plus lorsque je parle de régression y a-t-il un lien de causalité ? Ma question est un peu ambigüe mais peut-on étudier la dépendance de 2 variables quantitatives sans établir de relation de causalité ?
Merci.

Réponses

  • Bonjour.

    Tu sembles faire des probabilités sans la culture scientifique élémentaire qui permettrait de saisir pourquoi "on se contente de...". Ton paragraphe final sur régression et causalité montre bien que tu es passé à côté des nombreuses informations et vulgarisation sur la différence entre les deux (En France, de 1900 à 1960, la fécondité féminine était très corrélée au taux de curés dans la population, bien que les curés ne se marient pas). Et que tu n'as pas trop cherché à y réfléchir.

    "je ne connais aucun moyen automatique et pratique de déterminer/deviner $f$". Eh oui ! Si ça existait, il n'y aurait plus besoin de chercheurs !! Pire, il n'y a "aucun moyen automatique et pratique de" savoir s'il y a une telle fonction, sauf si, pour une valeur parfaitement identique de x, on a une réponse y parfaitement unique.

    J'ai un peu peur que ce qui te joue des tours dans les années à venir soit simplement ce manque de culture (j'ai connu ça dans d'autres domaines que les sciences, dans ma prime jeunesse). Tu devrais lire des revues scientifiques, de l'histoire des sciences et des maths, de la philo (épistémologie, entre autres), pour donner du sens aux études que tu fais.

    Pour ton nuage, il est évident qu'il n'apporte quasiment aucune information sur "note" connaissant "exp". un peu lorsque "exp" est très faible ou très fort. Dans ce cas, faire de l'analyse de régression n'a aucun intérêt. D'ailleurs, la covariance doit être particulièrement faible, ce qui donne des droites de régression sans grande utilité, l'une quasiment horizontale (de note en exp), l'autre quasiment verticale.

    " puis je en déduire l'indépendance ?" l'indépendance de quoi ? Des données du nuage ? Des variables statistiques qui ont été mesurées ? de variables aléatoires utilisées pour modéliser la situation ?
    Les données ne sont pas indépendantes, puisque exp faible ou fort donne des résultats différents pour note.

    Je n'ai fait aucun calcul, je me contente de regarder et de penser.

    Cordialement.
  • Bonjour Gerard et merci pour ton aide,

    Je parlais de l'indépendance entre la variable exp et la variable aléatoire note (bien sûr je parle de deux va donc de la proba mais je n'ai accès qu'aux données donc je fais de la statistique sur la base des données que j'ai). Effectivement la covariance ou corrélation est très faible et la vue de mon nuage ne me donne aucune informations !
    Du coup que répondre à la question" y a-t-il une dépendance statistiquement significative entre le nombre d’années d’expériences et la note au test ?"
  • La réponse est évidemment non, sans aucun calcul.
    A priori, le test de non nullité de R² devrait confirmer. Mais un statisticien sérieux ne perd pas de temps à ce genre d'amusette.
    D'ailleurs, les valeurs pour 20 ans d'expérience ou plus n'ont pas trop d'intérêt statistique, car trop rares.
    Tu peux compléter ton schéma par la courbe de régression, ensemble des points moyens par année.

    Cordialement.
    NB : tu devrais rectifier le titre du sujet. Association.
  • Rectification du graphique faite, bonne suggestion!

    Par contre je ne sais pas ce que tu entends par "test de non nullité du R^2" (je l'ai peut-être vu sous un autre nom "test de significativité du coefficient de corrélation linéaire" (sous l’hypothèse que mes 2 vecteurs de données sont issues de loi gaussiennes...).
  • Si tu utilises une corrélation linéaire, et en supposant que les résidus seront gaussiens, c'est le traditionnel test du coefficient de corrélation (en fait on test s'il pourrait être nul).
  • Ah oui on parle bien de la même chose: https://onlinecourses.science.psu.edu/stat500/node/214
    Merci pour la précision!
  • D'ailleurs au passage un élément qui m'interpelle : il semble que lorsque l'on teste la significativité d'un coefficient dans la régression linéaire (y=ax+b) on se retrouve avec la même statistique de Student utilisée dans le test du coefficient de corrélation (pour tester si a est nul ou pas...) !
    Pourquoi ça ?

    PS : je connais déjà un lien intéressant qui permet de comprendre certaines relations entre la notion de modèle linéaire et coefficient de corrélation linéaire.
    Je crois en effet avoir déjà vu une preuve expliquant pourquoi le coefficient de détermination $R^2$ dans une régression simple (utilisé pour donner une indication sur la qualité du modèle linéaire) est égal au coefficient de corrélation $r^2$ (calculé sur les vecteurs de données y et x).
Connectez-vous ou Inscrivez-vous pour répondre.