Aide en statistique pour mémoire
dans Statistiques
Bonjour !
Voilà je suis étudiante en kinésithérapie et j'ai un mémoire à faire, seulement je n'ai jamais fait de statistiques de ma vie, et je n'y comprends absolument rien.
J'ai beau lire des tutos et essayer plein de formules sur XLstat, je m'en sors pas...
En fait voilà, j'ai une population de 20 patients pour lesquels j'ai fait 2 mesures de 2 données différentes que je voudrais mettre en corrélation.
Entre paramétrique, non paramétrique, etc... Je ne m'en sors pas.
J'ai essayé les tests de normalité, et apparemment une des données serait distribuée normalement, et l'autre non.
Comment puis-je faire alors un lien entre les 2 ? Est-ce possible ?
Merci d'avance pour vos réponses, c'est assez urgent, je dois bientôt rendre mon mémoire...
PS:
Pour plus de détails, j'ai une des données qui doit répondre à une norme physiologique : les patients doivent avoir un indice compris entre 0,9 et 1,3 pour être sains. Cet indice doit être corrélé avec une réponse à un questionnaire sur l'activité physique. Donc l'hypothèse serait que plus le résultat au questionnaire est élevé, plus l'indice calculé devrait être proche de la norme, plus le résultat au questionnaire est faible, voire nul, plus l'indice devrait s'éloigner de la norme.
Voilà je suis étudiante en kinésithérapie et j'ai un mémoire à faire, seulement je n'ai jamais fait de statistiques de ma vie, et je n'y comprends absolument rien.
J'ai beau lire des tutos et essayer plein de formules sur XLstat, je m'en sors pas...
En fait voilà, j'ai une population de 20 patients pour lesquels j'ai fait 2 mesures de 2 données différentes que je voudrais mettre en corrélation.
Entre paramétrique, non paramétrique, etc... Je ne m'en sors pas.
J'ai essayé les tests de normalité, et apparemment une des données serait distribuée normalement, et l'autre non.
Comment puis-je faire alors un lien entre les 2 ? Est-ce possible ?
Merci d'avance pour vos réponses, c'est assez urgent, je dois bientôt rendre mon mémoire...
PS:
Pour plus de détails, j'ai une des données qui doit répondre à une norme physiologique : les patients doivent avoir un indice compris entre 0,9 et 1,3 pour être sains. Cet indice doit être corrélé avec une réponse à un questionnaire sur l'activité physique. Donc l'hypothèse serait que plus le résultat au questionnaire est élevé, plus l'indice calculé devrait être proche de la norme, plus le résultat au questionnaire est faible, voire nul, plus l'indice devrait s'éloigner de la norme.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
La pratique des statistiques ne s'improvise pas. Plutôt que des tutos (destinés à des gens qui savent déjà ce qu'ils veulent faire), prends le temps de lire un cours de statistiques. Ne serait-ce que pour pouvoir interpréter correctement tes résultats.
Avec 20 patients, ça va être délicat, mais tu peux éventuellement utiliser un test de comparaison d'échantillons, genre t-test, dit souvent test de Student. Par contre, ce que tu dois comparer, c'est les résultats du test avec la distance à la norme (|indice- 1,1| par exemple). Ce test peut être utilisé pour des variables (*) pas tout à fait gaussiennes, si la taille de l'échantillon est suffisante. Si ton indice est une somme de valeurs, il est à priori approximativement gaussien.
Cordialement.
(*) C'est la variable qui doit être gaussienne, Normale. Un échantillon de valeurs d'une variable Normale peut très bien ne pas passer les tests de Normalité.
La corrélation de Spearman évalue la corrélation entre les rangs, c'est-à-dire l'ordre dans lequel chacune des variables classe les individus. On montre facilement que le coefficient de corrélation de Spearman est égal au coefficient de corrélation de Pearson des rangs. En d'autres termes, elle vérifie l'existence d'une relation monotone croissante ou décroissante entre les deux variables. Pour mon exemple, on obtiendra donc une corrélation de 1. Comme la corrélation de Spearman utilise d'autres hypothèses qui n'ont rien avoir avec les distributions des valeurs d'origine (c'est pourquoi on dit que c'est une méthode non paramétrique), on peut tester sa significativité.
La corrélation de Kendall est aussi non paramétrique. Sa signification est légèrement différente de celle de Spearman. En effet, il mesure le degré de correspondance entre deux classements et évalue l'importance de cette correspondance. On peut tester sa significativité.
Maintenant, ce n'est pas exactement ce que tu veux faire puisque dans ce cas tu n'utilises pas dans ces corrélations appliquées directement à tes valeurs l'information sur la norme physiologique. Tu dois donc remplacer ta norme par un indice comme le suggère gerard0. Tu as plusieurs solutions, entre autres, la valeur absolue de la distance à 1.1 [la moyenne étant cette valeur], 1.1 moins cette valeur absolue ou un peu plus sophistiqué, si ton score est au-dessus de la limite haute (1.3), cette valeur moins 1.3, si tu es dans la norme 0, si tu es en-dessous de la norme (valeur basse 0.9), 0.9 moins la valeur de ton indice. Dans tous les cas, je commencerai toujours par tracer le score au test en fonction de l'indice pour vérifier visuellement si j'ai bien une courbe de variation qui s'approche de ce qu'elle devrait être en théorie.
Pour répondre à ta question, il faut qu'on sache ce que tu veux exactement.
Je ne suis pas sûre de bien comprendre ce que tu cherches à montrer.
Si c'est juste une analyse de corrélation, autrement dit en français si ta question est, est-ce que la variable physiologique mesurée est corrélée avec le score d'activité physique ? <- tu peux faire un Spearman.
Mais sache que cela ne t'apportera pas de résultats exploitables car :
1. Tu n'as pas assez de patients. Il faudrait que tu calcules le NNT (number need to treat) AVANT de commencer ton étude, en fonction de la puissance, et du delta attendu (c'est la différence que tu t'attends à observer).
2. Une étude de corrélation ne fournit pas de lien de causalité (l'exemple classique des profs de stats pour illustrer cela est qu'il existe une corrélation entre le nbr de glaces vendues et le nombre d'incendies, l'un n'étant pas la cause de l'autre ; l'hypothèse est qu'il existerait une troisième cause comme la chaleur tout simplement, expliquant l'un et l'autre). Bref, tu mettras juste en évidence une relation proportionnelle du type y=ax+b entre tes deux variables quantitatives (comme expliqué par FA31 plus haut).
Pour ce qui est de la mise en application, personnellement je travaille sur R.
Il faut que tu mettes tes données sur un tableau au format Excel ou CSV.
2 colonnes (une pour chacune de tes variables).
Puis que tu codes sous R. L'exemple est extrait d'un code perso, donc il faut que tu ailles chercher TON nom de fichier sinon forcément ça ne marchera pas.
- load tes données, si ton tableau est sous excel ça donne ça :
- effectues ton analyse de corrélation avec le package Hmisc (fonction rcorr)
Tu obtiens toutes les pvalues, les coeff de corrélation (r) et coeff de determination (r2) au format CSV.
- trace tes courbes (tu peux aussi le faire sur Excel).
Mais effectivement il faut quelques bases en stats.
Bon courage
Anne-Laure
Concernant l'utilisation de R :
1) a priori, la fonction read_excel (package readxl) renvoie toujours un data.frame
2) puisqu'il n'y a que deux colonnes, la fonction cor.test du package stats (de base) est suffisante. Elle donne de plus l'intervalle de confiance.
Enfin une solution plus complexe si on considère des relations linéaires par morceaux entre les deux variables (d'après ce que j'ai compris ; en dessous de la norme, dans la norme et au-dessus de la norme) serait d'utiliser une méthode d'analyse linéaire par morceau. Sous R, voir la fonction segmented du package segmented. Mais dans le cas d'Anilegna, il y a de fortes chances que cela ne donne rien vu le faible nombre de patients. Une corrélation de Spearman ou de Kendall paraît donc mieux appropriée mais il ne faudra pas être déçu si elle ne donne rien (problème de puissance) et si elle donne quelque chose, pas trop enthousiaste (risque de biais d'échantillon si c'est une étude rétrospective sur des données qui n'était pas prévues pour cela).
Si les 2 distributions de tes observations sont normalement distribuées alors tu peux appliquer un test de Student (difficile avec 20 patients ... Il en faudrait plus.).
Sinon, tu peux utiliser le test de Wilcoxon qui ne requiert pas d'hypothèse pour son application (un peu moins puissant que le test de Student).
Pour ce qui est de la corrélation, c'est autre chose, comme l'a bien expliqué FA31_825.
Tu peux utiliser une console R en ligne en cherchant les fonctions "shapiro.test()", "t.test()", "wilcox.test()" ça t'aidera dans ce que tu recherches.
J'ai aussi fait un outil disponible en ligne, où tu mets tes données au format *.CSV ainsi que tes paramètres et l'outil analyse automatiquement.
Voici le lien: https://plizdomystatz.shinyapps.io/PlizDoMyStatz/ :-)
[Frank Wilcoxon (1892-1965) prend toujours une majuscule. AD]