normalité et stat non paramétrique

Bonjour,

Si quelqu'un savait répondre à mes questions cela me serait d'une grande aide, étant mémorante ne me restant plus que 3 semaines et étant nulle en stat :) !

Lorsqu'on vérifie la normalité d'une variable à l'aide du test de Shapiro-Wilk (n<2000) et que p<0,05, est-ce,
d'une part, encore utile de calculer l'homoscédasticité de cette variable et,
d'autre part, faut-il alors utiliser une statistique non paramétrique ?

De plus, en envisageant toujours que l'hypothèse de normalité soit rejetée (p<0,05), quelle analyse post-hoc doit-on utiliser à la place du test de Newman-Keuls (une VI à trois niveaux et une VD métrique) ?

Enfin, comment fait-on lorsque l'on désire réaliser une corrélation, ou covariance, ou ANOVA mixte, lorsque l'on croise une variable non paramétrique (pour laquelle l'hypothèse de normalité est rejetée) avec une variable paramétrique (dont l'hypothèse de normalité n'est pas rejetée) ?

Je vous remercie d'avance
Geraldine

Réponses

  • Bonjour.

    Si tu es vraiment nulle en stats, comment fais-tu pour savoir ce que tu fais avec des tests aussi élaborés ?
    Rassure toi, je plaisante, mais je trouve ce refrain constamment. J'ai l'impression d'entendre des cul-de-jatte me demander de les conseiller pour le marathon de Paris. Et quand on commence à s'expliquer, ils connaissent des stats que je n'ai jamais fréquentées.

    Tout d'abord, je suis surpris de "l'hypothèse de normalité soit rejetée (p<0,05)". Si p est inférieur au seuil de risque (je suppose que c'est le classique 5%), le test a réussi, donc on ne peut pas rejeter l'hypothèse (On ne peut pas non plus être sûr qu'elle soit vraie).

    Donc je laisse pour l'instant la première question.
    Pour la deuxième, je ne connais pas ce test (je le disais au début !). D'ailleurs, je ne sais pas trop ce que tu fais.
    Enfin pour la troisième la notion de "variable non paramétrique" n'a pas de sens. Ce sont les tests sur les variables qui sont paramétriques. Les variables sont discrètes ou continues, de loi connue ou non, etc. Et tu as sans doute fait assez de statistiques élémentaires (niveau bac ou bac+1) pour savoir qu'on étudie la corrélation de deux variables sans se poser de questions sur la loi qu'elles suivent (en général aucune d'ailleurs). Par contre, dans l'Anova, une supposition de base de la méthode est que les variables échantillonnées suivent une loi Normale. Mais comme ce test est assez "robuste", la méthode marche bien avec des variables pas trop différentes (répartition "en bosse").

    Cordialement.
  • Par curiosité, c'est un mémoire de quoi ? De psycho ? D'économie ?
  • Gérard: ce n'est pas très sophistiqué, des tests abondamment utilisés dans le domaine biomédical, bac+2 à bac+5. Par ailleurs attention, ici $p$ est la $p-$value: on rejette l'hypothèse nulle si $p<\alpha$, où $\alpha$ est le seuil choisi.

    Géraldine:
    - question 1:
    première étape: Shapiro-Wilk teste l'hypothèse "mon échantillon est distribué selon la loi normale" (Hypothèse nulle). Si tu choisis un niveau $\alpha=0,05$ et que ta $p-$value vérifie $p<0,05$, alors oui tu as bien compris: on rejette l'hypothèse nulle, donc ta variable ne suit pas une loi normale à ce niveau là.

    deuxième étape: Homoscédasticité veut dire "même variances entre les différents échantillons". C'est une condition qui doit être nécéssairement vérifiée si on veut utiliser un des tests paramétriques courants (ANOVA, etc.). Donc tout dépend de ce que tu veux faire: si tu as montré qu'au moins un de tes échantillons provient d'une variable qui ne suit pas une loi normale, et que tu voulais faire seulement un test paramétrique alors pas la peine de tester l'homoscédasticité de tes échantillons car tu ne peux pas faire ce test paramétrique.

    Si tu veux vraiment faire un test avec ces données il sera donc forcément non paramétrique, et alors selon le test envisagé tu peux être amenée à tester l'homoscédasticité de tes échantillons (je ne connais pas tous les tests, certains le demandent peut-être). En effet, l'homoscédasticité est une notion générale qui concerne tous les ensembles d'échantillons, pas seulement ceux issus d'une loi normale.

    question 2: dans le cas d'une VI à trois niveaux et une VD métrique, une analyse post-hoc non paramétrique qui convient pour des données non-normales est le test de Kruskal-Wallis, voir par exemple ceci http://books.google.fr/books?id=j1Q7H46y1rYC&pg=PA226 ou encore celà http://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance Ceci peut se compléter par le test de Nemeyi voir ceci http://books.google.fr/books?id=IIxOrQYBJnYC&pg=PA142

    question 3: Gérard a eu raison de corriger un peu ton vocabulaire: ce que tu demandes c'est quels outils utiliser quand on a une série provenant d'une variable de loi normale à ce niveau $\alpha$ choisi (i.e. une série pour laquelle l'hypothèse de normalité n'a pas été rejetée) et une autre série qui vient d'un loi qui n'est pas normale pour ce même niveau $\alpha$ (i.e. pour cette série là l'hypothèse de normalité a été rejetée).

    Réponse: tous ceux qui conviennent pour des lois générales (i.e. tous ceux où on ne dit pas "réservé aux lois normales").


    Il y a aussi des explications non-techniques assez bien faites pour infirmières ici http://nursingplanet.com/Nursing_Research/basic_statistical_concepts_nurses.htm ça peut t'être utile pour bien te fixer les idées.
  • Effectivement, Léon,

    J'ai encore une fois inversé la signification de la p-value (je ne m'y fais pas !). merci.
    Léon a écrit:
    ce n'est pas très sophistiqué, des tests abondamment utilisés dans le domaine biomédical, bac+2 à bac+5.
    Ce n'est pas parce que des tests sont "abondamment utilisés" qu'ils sont simple, et surtout, compris par leurs utilisateurs. Je pense surtout que les statistiques sont très mal enseignées.
    En particulier, je pointe l'usage des tests de normalité : Si on a une raison de penser que la population est gaussienne, il est logique de tester l'échantillon. Sa non normalité sera l'indice d'un biais. mais si on n'a aucune raison de penser que la distribution des données est Normale, faire le test ne dira rien : S'il échoue, on n'a rien appris, pire, même avec une population gaussienne, ça arrive une fois sur 20 avec le classique 5%; et s'il réussit, on n'a rien appris non plus, car sauf avec un échantillon très important (plusieurs milliers), la répartition n'a aucune raison d'être gaussienne (Elle peut être discrète type binomiale B(20;0,4), ou lognormale, ..).
    En généralisant : les tests d'hypothèses ont été faits pour vérifier ou infirmer des hypothèses. Leur usage fréquent et pseudo-scientifique sert à dire des choses sur la réalité avec aplomb alors que la théorie ne le permet pas, et fréquemment à donner un vernis de mathématiques pour ceux qui n'y connaissent rien.

    Cordialement
  • Cher Gérard
    Comme tu as raison de faire la comparaison avec le fait de donner des conseils pour le marathon à un cul de jatte !!! Il y a des tests simples et qui ont fait leurs preuves pourquoi aller chercher autre chose. Et bonjour l'inflation verbale, c'est si simple de dire variances égales 4 syllabes que tout le monde comprend alors pourquoi aller chercher homoscédasticité : 8 syllabes, si ce n'est pas du pédantisme ?
    Par ailleurs je ne fais pas de différence de difficulté d'emploi pour la variance et l'écart-type puisque l'on passe de l'un à l'autre par la racine ou l'élévation au carré.
    L'écart-type a le même ordre de grandeur que la variable, propriété utilisée quand on donne l'intervalle de confiance à 95% par exemple : moyenne + ou - 2 écart-types.
    Bien cordialement
    Koniev
  • "
    > Rassure toi, je plaisante, mais je trouve ce
    > refrain constamment. J'ai l'impression d'entendre
    > des cul-de-jatte me demander de les conseiller
    > pour le marathon de Paris."

    Désolée de détérer ce topic riche en conseils, mais il fallait que je te remercie pour ce fou rire :-D
Connectez-vous ou Inscrivez-vous pour répondre.