Man-Whitney et variance (applicabilité)
dans Statistiques
Bonjour,
Voici mon problème :
je travaille sur des distributions non gaussiennes que je souhaite comparer. je dois donc me restreindre aux tests non-paramétriques.
La littérature que j'ai pu consulter recommande particulièrement celui de Mann-Whitney.
1/ Ce sont les conditions nécessaires à son application qui ne sont pas claires pour moi : faut-il que les variances des deux échantillons soient égales ? (comment s'en assurer statistiquement ?)
Mes 2 échantillons ont des variances différentes.
A priori, je ne peux donc pas utiliser Mann-Whitney ?
2/J'ai lu (ici ) qu'il fallait employer les tests de rang robuste comme Fligner-Policello... seulement je n'ai pas trouvé de logiciels (xlstat, tanagra) qui proposent ce test... comment puis-je faire ?
(je précise que je ne suis pas du tout mathématicien
j'ai juste recours aux stats pour des quantifications en archéologie)
Voici mon problème :
je travaille sur des distributions non gaussiennes que je souhaite comparer. je dois donc me restreindre aux tests non-paramétriques.
La littérature que j'ai pu consulter recommande particulièrement celui de Mann-Whitney.
1/ Ce sont les conditions nécessaires à son application qui ne sont pas claires pour moi : faut-il que les variances des deux échantillons soient égales ? (comment s'en assurer statistiquement ?)
Mes 2 échantillons ont des variances différentes.
A priori, je ne peux donc pas utiliser Mann-Whitney ?
2/J'ai lu (ici ) qu'il fallait employer les tests de rang robuste comme Fligner-Policello... seulement je n'ai pas trouvé de logiciels (xlstat, tanagra) qui proposent ce test... comment puis-je faire ?
(je précise que je ne suis pas du tout mathématicien
j'ai juste recours aux stats pour des quantifications en archéologie)
Réponses
-
Bonsoir.
Tout dépend de ce que tu veux faire ("comparer" a tellement de sens). Si tu veux vérifier que tes échantillons peuvent provenir de la même population, ou de populations comparables (même répartition), tu as déjà gagné : Si les variances sont nettement différentes, la réponse est évidente. Tu peux alors utiliser un test de comparaison de variances, si tes échantillons sont suffisamment grands(quelques dizaines de valeurs). Mais dans ce cas, les statisticiens préfèrent utiliser le test de Student, qui a l'avantage de bien fonctionner, même pour des données très loin d'être gaussiennes.
Enfin tu peux effectivement utiliser le Mann-Whitney, ou le Wilcoxon, qui ne supposent rien sur les séries, donc l'inégalité des variances ne pose pas de problème.
Si ta comparaison des échantillon repose sur une autre idée (comparer les moyennes, les dispersions, ..) il y a encore d'autres méthodes.
Cordialement -
Bonjour,
Merci pour la rapidité de la réponse!
Oui, alors je n'ai pas été assez précis : je cherche effectivement à m'assurer que mes échantillon peuvent provenir d'une même population.
Je suis étonné, je pensais que le test-T de student (c'est bien de celui-ci dont tu parles?) nécessitait une distribution normale. Ce serait le cas en théorie mais pas en pratique ? (en fait, est-il possible de s'affranchir dans certains cas des conditions d'application des tests ? distribution normale, égalité des variances...?)
Je cite ci-dessous les lectures que j'ai faite et qui m'intriguent concernant le Mann-Whitney : il semblerait que ce test présuppose tout de même une égalité des variances ?Les test non paramétriques visent à détecter une différenciation des distributions conditionnellement
aux groupes (échantillons) selon une caractéristique de localisation. Il n'en reste pas moins que l'hypothèse
nulle stipule l'égalité des fonctions de répartition, sous quel que forme que ce soit. De fait, le rejet peut
effectivement correspondre à un décalage entre les paramètres de localisation, mais elle peut aussi résulter
d'autres formes de différenciation. [...] Lorsque nous souhaitons comparer des paramètres de localisation, sans assumer l'égalité des dispersions, les approches ci-dessus ne sont plus adaptées. Elles fournissent des résultats
erronés. Le rejet de l'hypothèse nulle n'est plus imputable (seulement) à un écart de tendance centrale.
Ce problème est connu sous le nom de problème de Behrens-Fisher. Pour les méthodes paramétriques, nous
nous tournerons vers la variante d'Aspin-Welch du test de Student; pour les méthodes non paramétriques,
nous nous tournerons vers le test de rang robuste due à Fligner-Policello(1981), variante du test de
Wilcoxon-Mann-Whitney(voir[3],pages176à178;[13],page137à144).Nachar, 2008, \ a écrit:Lastly, the Monte Carlo methods showed that the Mann‐
Whitney U test can give wrongfully significant results, that
is to say the erroneous acceptance of the alternative
hypothesis (Robert & Casella, 2004). This type of results is at
risk to be obtained whenever one’s samples are drawn from
two populations with a same average but with different
variances. In this type of situations, it is largely more reliable
to use the t‐test which gives a possibility for the samples to
come from distributions with different variances. The alpha
(α) error or of type I is to reject H0 whereas this one is true.
This error is thus amplified when Mann‐Whitney U is
applied in a situation of heteroscedasticity or distinct
variances.
Cordialement,
Sébastien -
Bonjour.
Ces deux textes confirment ce que je t'ai dit, le test de Student est préférable car robuste : Même si la distribution des populations est assez éloignée d'une gaussienne, on arrive à comparer ... les moyennes. En effet, le test repose sur l'estimation d'une moyenne par celle de l'échantillon, et la loi de la moyenne d'un échantillon est très souvent très proche d'une gaussienne.
Mais bien évidemment, on ne fait que comparer les moyennes. S'il y a des variances nettement différentes, il n'est plus soutenable que les échantillons proviennent de la même population. par contre, je ne connais pas ce secteur (tests de variance adaptés à des distributions inconnues).
Cordialement.
NB : Merci pour le deuxième texte qui a attiré mon attention sur un fait que j'ignorais (Je suis essentiellement autodidacte en stats).
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 163.1K Toutes les catégories
- 8 Collège/Lycée
- 21.9K Algèbre
- 37.1K Analyse
- 6.2K Arithmétique
- 53 Catégories et structures
- 1K Combinatoire et Graphes
- 11 Sciences des données
- 5K Concours et Examens
- 11 CultureMath
- 47 Enseignement à distance
- 2.9K Fondements et Logique
- 10.3K Géométrie
- 62 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 68 Informatique théorique
- 3.8K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 312 Mathématiques et Physique
- 4.9K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10K Probabilités, théorie de la mesure
- 772 Shtam
- 4.2K Statistiques
- 3.7K Topologie
- 1.4K Vie du Forum et de ses membres