Test Anova

Bonjour
Dans le cadre d'une enquête je dispose des variables salaire et embauche. Je cherche à établir (enfin c'est une question qui m'a été posée) s'il existe une liaison entre la couleur des cheveux et le salaire d'embauche demandé.
J'ai d'abord fait une illustration graphique qui ne semble indiquer aucune corrélation.
https://snag.gy/i7qJg9.jpg

Pourtant une Anova ou un test de Kruskal Wallis me renvoie une valeur inférieure à 10^-5 et m'incite à rejeter très fortement ces tests (donc semble indiquer une dépendance statistique entre la couleur des cheveux et le salaire demandé). Devant ce résultat très étonnant je me demande :
- qu'est-ce qui sur mes graphiques semble contre-indiquer cette conclusion.
- si mon interprétation du test est la bonne.
https://snag.gy/uf7XPE.jpg

Merci d'avance pour ceux qui m'aideront.

Réponses

  • Bonjour.

    Tu sembles avoir un très grand effectif. Dans ce cas, les tests classiques sont toujours fortement significatifs sur des séries réelles.

    Cordialement.
  • Merci Gérard!
    Donc le problème viendrait de l'effectif ; je manque clairement de recul car je ne vois pas en quoi un grand effectif viendrait perturber une Anova ... Je vais y réfléchir, si tu as des exemples artificiels qui pourraient m'aider à comprendre ça serait très instructif. En tout cas encore un grand merci pour ton aide récurrente.

    Par ailleurs j'ai calculé le rapport de corrélation et obtiens une toute petite valeur: 0.004790948267831568 ce qui semble témoigner d'une absence de liaison entre ces deux variables. C'est vrai que c'est contradictoire..
  • Ps: le nbr d' observations est de l' ordre de 18000.
  • Pas besoin d'exemples artificiels, simplement voir ce que donnent les formules pour n très grand. Les petites différences de moyenne que tu as illustrées deviennent significatives.
  • Bonjour Gérard;

    En fait je ne comprend pas en quoi la p value serait plus sensible aux grands échantillons pour moi c est une mesure absolue qui si l' hypothèse nulle est vraie ne rejetera le test que 5%du temps (si l' on choisit le seuil de la statistique de test égale au quantile correspondant) indépendamment de la taille de l'échantillon. À titre de exemple voir la réponse de Paul dans ce message notamment le exemple du t test. https://stats.stackexchange.com/questions/2516/are-large-data-sets-inappropriate-for-hypothesis-testing
  • Ce n'est pas un problème mathématique, mais un problème concret : Il n'y a aucune raison véritable pour que les valeurs mesurées ou collationnées dans la réalité suivent exactement une des lois de base des statistiques. Donc là où, avec des échantillons de 10, 100, 1000 valeurs, les approximations usuelles seront acceptables, avec 10000, 10000, un million de valeurs, de petites différences naturelles (ou artificielles, des artéfacts) deviendront significatives.
    Même avec un générateur pseudo-aléatoire, on sait que des tirages de grande taille font apparaître des comportements non prévus. Alors avec des valeurs tirées de la réalité, il est peu probable qu'à force de mesures on ne fasse pas apparaître des différences statistiquement significatives.

    A toi de décider si, pour ton prochain entretien d'embauche, tu te fais teindre en châtain ...
  • Ahah merci je comprends mieux^^ (je ne me teindrai pas en roux vu les résultats de l'enquête).


    1) Cependant n'existe t'il pas "une théorie" des "pistes" qui permettent de choisir le seuil critique de manière à tolérer "la légère" invalidité du modèle ? Je sais c'est assez floue ce que je dis surtout que personnellement j'ai du mal à me représenter si un écart de 1000 euros (entre les chatains et les roux) sur un salaire annuel de moyennes environ 35000 est "beaucoup"... Peut être que les salariés pourront me donner leur avis ;)

    2) Quelles autre procédures/méthodes me restent-t-il pour étudier la liaison entre une variable qualitative (couleur des cheveux ici) et une variable quantitative (salaire) ? Car je perçois bien la subtilité des tests et j'ai beaucoup trop de mal à les interpréter...
  • Je croyais que tu avais fait une formation en analyse des données nombreuses (data mining) ?
  • Eh bien j'ai vu les méthodes suivantes: modèle linéaire gaussien, LDA, regression logistique, arbres de décision, Random Forest, SVM, ACP (et kernel ACP), MDA avec plus où moins de détails théoriques mais n'ai jamais réellment pratiqué et c'est là que le bât blesse ...

    Donc au risque de perdre ma fierté tout conseil,remarque , aussi "basique" soit il, ne pourra que m'aider.
Connectez-vous ou Inscrivez-vous pour répondre.