Analyse de corrélation bivariée

Bonjour
Je suis nouveau sur le forum, je viens chercher votre expertise !
Voici ma situation.

J'ai 111 variables dont j'aimerais voir s'il existe une relation entre 3 variables et les autres variables, que ce soit linéaire, non linéaire monotone etc...
J'ai 77 valeurs pour chacune de mes variables.

Voici mon raisonnement,
J'ai voulu faire des graphiques de nuage de points comme première étape, mais étant donné que ça me ferait beaucoup trop de graphiques à faire et à interpréter, j'ai pensé faire autre chose.

Ce que je sais (enfin je crois).
Coefficient de corrélation de Pearson : bon pour analyser relation linéaire, variable quantitative.
Coefficient de corrélation de Spearman : pour variable qualitative quantitative.
J'ai donc fais une analyse de corrélation à l'aide d'un logiciel de stat. Que vous pouvez voir en partie sur la photo.
J'ai fait deux analyses une avec Pearson car mes variables sont quantitatives,
ensuite j'ai éliminé toutes ceelles ayant une p-value supérieur à 0,05.
Ensuite je suppose qu'il y a corrélation moyenne entre ma variable X ( ex: SORTIE_EPURATEUR_SECOND.) et Y (épaisseur_mp2)
CAR : Valeur coef de Pearson = 0,6364 et p-value = 0,000

Est-ce exact de dire ceci ? Est-ce que je dois pousser plus loin ? Auriez-vous d'autres méthodes statistiques à proposer ?
Tout commentaire est ultra-apprécié !! :)

[Les noms propres prennent toujours une majuscule. AD]82416

Réponses

  • Mes variables sont toutes quantitatives !
  • Bonjour.

    J'ai l'impression que tu as fait 111 analyses de corrélation simultanées. A part si tu as des coefficients de corrélation de l'ordre de $\pm 0.99$, tu ne vas pas en déduire grand chose.
    Quant à la p-value, elle est, pour le test d'égalité à 0 du coefficient de corrélation, assez nettement corrélée à ce même coefficient.

    Donc la question qui se pose est : Que veux-tu faire d'un coefficient de corrélation à 0,6364 (moi je lis 0,638 dans le tableau) ? Qu'est-ce que ça signifie ?

    Cordialement.
  • Bon matin Gérard,

    Effectivement j'ai bien fait 111 analyse de corrélation simultanément, avec SPSS j'ai les mêmes valeurs en lançant l'analyse avec tous les facteurs en même temps que si je les ferais une a une.


    C'est mon erreur, pour ma variable X ( ex: SORTIE_EPURATEUR_SECOND.) et Y (épaisseur_mp2)

    J'ai un coefficient de corrélation de 0,638 et un P-value de 0,000

    relation entre x et y est
    parfaite si r=1
    très forte si r se situe entre 0,5 et 0,8
    moyenne si r se situe entre 0,2 et 0,5
    faible entre 0 et 0,2
    nulle r=0

    si
    p-value > 0,05 Accepte H0
    si p-value<0,05 Accepte H1

    Alors, ce que j'en déduisais était que:

    Ho= relation entre x et y est due au hasard
    H1=la relation entre x et y ne peut être attribuée au hasard, il existe donc un lien entre x et y au sein de ma population.

    Le réglage de ma sortie d’épurateur secondaire avait une relation forte sur mon épaisseur de produit r=0,638 et que je que je rejette Ho car mon p-value<0,05.

    et ainsi de suite pour toute les corrélations.

    Ce que je me demande c'est si mon raisonnement est bon ensuite, est-ce que je pourrais faire une régression linéaire avec ceux ayant une corréaltion forte pour pouvoir voir à quel proportion les varaibles X on un impact sur ma variable Y


    5c0926786ebdc.jpg
  • Je crois que tu fais une erreur sur la p-value (cois le mode d'emploi du logiciel de stats) : En général, c'est celle du test avec H0=corrélation nulle contre H1= corrélation non nulle, qui est fait. mais une corrélation de 0,01 est non nulle, mais sans utilité.

    Et je reste avec mon interrogation : A quoi cela te sert-il ?

    D'autre part, avec 111 tests faits au hasard, il y a de fortes chances d'en trouver qui, par hasard sont interprétables à tort. La répétition de tests est généralement déconseillée.

    Il faut noter que si tu faisais des corrélations multiples (par exemple chacune des 108 autres variables avec l'ensemble des trois premières), tu trouverais probablement des rapports de corrélation différents, beaucoup plus significatifs.

    Cordialement.
  • je suis pas certain de comprendre quand tu écris:

    Je crois que tu fais une erreur sur la p-value (cois le mode d'emploi du logiciel de stats) : En général, c'est celle du test avec H0=corrélation nulle contre H1= corrélation non nulle, qui est fait. mais une corrélation de 0,01 est non nulle, mais sans utilité.

    Je fabrique un matériaux à l'aide d'une machine, mais j'ai un problème de non constance de mon épaisseur et de ma densité. Elles varient beaucoup!

    J'essaye avec les paramètres de la machine de déterminer ce qui cause cette variation.
  • Alors je pense que tu risques de passer beaucoup de temps pour rien. Avec 111 facteurs, difficile de faire un plan d'expérience.
  • Il ne serait pas vraiment possible de faire un plan d'expérience.

    J'ai des variables de réglage qui varient dont j'ai plus ou moins de contrôle, ce que j'aimerais être en mesure de faire avec mon analyse c'est d'identifier ceux qui ont un impact sur ma densité et mon épaisseur pour ensuite travailler à stabiliser ces variations.
  • Sur la base de ce que tu as fait, tu peux déjà examiner les variables qui te semblent pertinentes, puis continuer par une analyse technique (que tu ne pourras pas éviter : C'est un process, il a des caractéristiques techniques) et autant que possible, faire du retour d'expérience (les opérateurs ont souvent des connaissances très exploitables).
    Les stats ne font pas des miracles.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.