Choix des tests statistiques

Alexia-Camille · June 2019

Bonjour
Dans le cadre d'un projet, je suis amenée à réaliser un test dans le but d'accepter ou refuser mon hypothèse nulle $H_0$.
Je dois choisir entre le Chi test ou le test de Student.

Si j'ai bien compris, le Chi test s'applique lorsque l'on possède des variables qualitatives alors que le test de Student est applicable avec des variables quantitatives.
Je pensais que cette différence me suffirait à effectuer mon choix. Néanmoins, je ne comprends pas bien une notion.
J'ai vu le Chi test appliqué à des variables quantitatives : par exemple, ayant comme variables "filles" et "garçons" // "utilisation d'internet" et "non utilisation". Certes les variables sont qualitatives mais il s'agit bien de nombre manipulés.

Ma question est donc la suivante : dans quel cas, ou exemple, on considère que les variables sont quantitatives ?

Je maîtrise mal cette notion qui ne me permet pas de bien comprendre la différence entre ces deux types de tests.
Merci d'avance pour votre réponse,
Alexia.

gerard0 · June 2019

Bonjour.

Les variables dont les modalités sont "filles" et "garçons" // "utilisation d'internet" et "non utilisation" sont bien qualitatives, fille n'est pas un nombre, encore moins le résultat d'un comptage ou d'une mesure. Il ne faut déjà pas confondre la variable et ses modalités. Mais j'ai bien l'impression que tu confonds la variable statistique (ce sur quoi porte la question) avec ses effectifs quand tu dis " il s'agit bien de nombre manipulés". Car je ne vois pas d'autres nombres ici que les effectifs des différentes classes.
Un conseil : revois le vocabulaire de base des statistiques (population, individu, caractère, modalité, valeur, qualitatif, quantitatif, classe, échantillon).

A priori, il n'y a aucune raison d'avoir à choisir entre les deux tests dont tu parles, ils correspondent à des questions différentes (des H₀ sans rapport) dans des situations différentes.

Cordialement.

Alexia-Camille · June 2019

Merci pour votre réponse !

J'ai maintenant, bien compris la différence entre les deux. En effet, mon erreur venait de le mal compréhension des valeurs, qui sont pour moi des effectifs.

J'aurai une seconde question : je réalise un test du Chi2 d'indépendance.

J'ai donc le code suivant : voir la capture en fichier joint.

Cependant, à chaque fois que je réalise le test avec des valeurs différentes (je conserve une variable mais je change l'autre variable dans le but de pouvoir conclure à l'indépendance / ou / dépendance, de ces deux variables), j'obtiens toujours une p-valeur qui vaut 0.
Je pense que mon code est alors faux ? Savez-vous où mon erreur se situe ?

Merci pour vos réponses,
Alexia. 87556

jma · June 2019

Bonjour,
Je remarque simplement que ta p-value est égale à 0.0 donc je me demande simplement si ce n'est pas un problème de chiffres significatifs ??? Peux-tu essayer sur un test dont tu connais le résultat ?
Sinon un petit exercice, donner des exemples de variables quantitatives, qualitatives nominales, qualitatives ordinales, variables mixtes en s'aidant d'un livre ou d'internet et trouver pour chacune des applications statistiques spécifiques.
Cordialement.

gerard0 · June 2019

Bonjour.

Je ne connais pas le logiciel que tu utilises, mais si j'ai bien compris, tu as un khi deux de 479 pour 20 degrés de liberté, donc à quasiment tout niveau de risque, le test est significatif, tes données sont raisonnablement indépendantes, la p-value est quasiment nulle.
S'il y a une erreur, elle est donc avant le calcul de D2.

Cordialement.

jma · June 2019

Bonjour,
@gerard0:
Il n'y a pas de problème dans la démarche dichotomique des tests selon Mann-Whitney. Pour l'approche de Fisher, la valeur de la p-value est capitale et, plus il y a de 0 après la virgule, plus les résultats seront reproductibles. Ce logiciel est capable de donner des valeurs intermédiaires à au moins 8 chiffres après la virgule et est incapable de le faire pour la p-value, Cela me dérange sans regarder en détail les calculs.
Cordialement.

Alexia-Camille · June 2019

Tout d'abord, merci pour vos réponses @gerard0 et @jma.

J'ai utilisé le même code pour un autre exercice et j'obtiens bien des p-values pas nécessairement égales à 0. Je veux dire que ce calcul affiche bien un résultat avec une grande précision.

J'ai bien conscience qu'il s'agit ici d'un problème lié à mon utilisation du code ou du moins des variables utilisées.

Pour un peu plus de détails, je cherche à répondre à la question suivante : Est-ce que la diminution du nombre de personnes par secteur d’activité est liée à l’utilisation d’internet, c’est-à-dire à l’utilisation d’un ordinateur ?

Ma variable dépendante est la différence entre le nombre total d'emploi par pays, entre l'année 2009 et 2016.
Mes variables indépendantes concernent les différents secteurs d'activités par pays.

J'ai effectué des régressions multiples spécifiques et calculé le Cp de Mallow. J'ai donc pu éliminer des variables qui ne servent pas à prédire la variable dépendante.

Maintenant, j'effectue ce test dans le but de confirmer ou réfuter mon hypothèse $H_0$ qui est l'indépendance de mes variables.
Ainsi j'effectue différents tests, avec à chaque fois ma variable dépendante (la différence du nombre d'emploi) et une autre variable.

Voici une capture des deux variables que je teste : chaque ligne correspondant à un pays différents, la première colonne concerne le secteur de l'industrie et la deuxième la différence du taux d'emploi.

Comme vous pouvez le constater, pour certains pays, il y eu une diminution de l'emploi global. J'ai donc des valeurs négatives !!

Je pense que ces valeurs modifient le test, enfin ne permettent pas d'effectuer correctement le code suivant.

Savez-vous comment je peux réaliser ce test dans le but de réfuter ou accepter mon hypothèse nulle ?

Merci pour vos réponses et votre temps,
Alexia. 87582

gerard0 · June 2019

Jma,

je n'ai pas compris pourquoi tu me parles de Mann-Withney, alors que Alexia programme un khi-deux. La suite est du chinois pour moi '"l'approche de Fisher" ??). J'ai simplement noté qu'avec un khi-deux aussi élevé, il n'est pas anormal de trouver 0.

Cordialement.

gerard0 · June 2019

Alexia-Camille,

j'espère que tu n'essaies pas de faire un test de khi-deux avec ces valeurs. Un test de khi-deux porte sur des effectifs de classes. Soit pour comparer la répartition des effectifs à une répartition modèle, soit pour comparer deux répartitions et savoir si elles sont indépendantes ou pas.
Dans ton tableau, les variations d'effectifs ne sont pas des effectifs de classes, donc ne peuvent pas servir. Il faut d'autres tests.

Cordialement.

Alexia-Camille · June 2019

Gerard0 merci pour ta réponse.

Cependant je ne comprend pas un principe. Ici, dans ma première colonne, concernant le secteur de l'industrie, j'ai des effectifs. En effet, j'ai le nombre de personnes qui, par pays, travaillent dans ce secteur. Dans ma deuxième colonne, j'ai la aussi des effectifs, à savoir le nombre de personnes travaillant par pays.

Mon tableau, à double-entrée, comporte :

individus = pays
variables = secteurs d'activités + différences entre le nombre de personnes travaillant en 2016 et 2009

J'ai, à ma disposition, les tests du Chi2 (indépendance ou adéquation) et le test de Student (T-test ou Z-test).
Ici, compte tenu de mes données, je me suis orientée vers un test du Chi2 d'indépendance.

Je me demande alors : ai-je faux dans mon raisonnement ? et si oui, pourquoi et quel test effectuer au vu de mes variables ?

gerard0 · June 2019

Je le redis, les variations d'effectifs ne sont pas des effectifs. Les effectifs sont toujours positifs, pas les variations d'effectifs.
Et dans ton tableau de ce message les valeurs dans la première colonne ne sont pas des effectifs, puisque ce ne sont pas des entiers.

Enfin, si les individus sont des pays, les effectifs doivent être des nombres de pays, et les classes des ensembles de pays. Revois mon conseil à mon premier message. Il faut que tu sois au clair sur ce que tu manipules, et sur ce que tu peux faire. par exemple tu dis "Maintenant, j'effectue ce test dans le but de confirmer ou réfuter mon hypothèse $H_0$ qui est l'indépendance de mes variables." On peut supposer que c'est l'indépendance de tes variables explicatives (effectifs par secteur) or tu sembles vouloir tester l'indépendance entre une variable explicative et la variable expliquée (*).

Cordialement.

(*) je n'emploie pas le malsain vocabulaire "variable (in)dépendante", qui met une confusion avec la notion statistique de dépendance.

jma · June 2019

@gerard0 : je ne parle de test de Mann-Whitney mais de la méthodologie de Mann-Whitney si le p-value est inférieure ou supérieure à un seuil, on rejette ou on accepte l'hypothèse nulle. Pour Fisher, c'est la valeur de la p-value qui importe, plus elle est petite plus l'hypothèse nulle est rejetée et plus le résultat du test est reproductible. Rejeter H0 avec p=0.025 n'est pas très probant et une autre personne respectant le même protocole pourra trouver tout à fait le contraire. Par contre, si p=0.000001 alors le résultat sera d'autant plus reproductible. Les logiciels éprouvés sont donc très précis sur la valeur de la p-value. Il y a une nuance qui semble fine entre les deux approches mais qui fait une grande différence . Si, on trouve une p-value=0, on est en droit de s'interroger sur un arrondi hâtif. Enfin, personnellement, c'est directement ce que je vérifierais en premier pour éviter de perdre du temps puis une démarche mathématique. Chacun a ses petits tics et automatismes.
Cordialement.

jma · June 2019

Alexia-Camille,
Essaye de faire le petit exercice que je t'ai conseillée puis nous verrons comment t'aider.
Bonne soirée.

Alexia-Camille · June 2019

Tout d'abord, merci pour vos réponses qui me permettent de m'améliorer !

J'ai commis une erreur mais qui m'a permis de comprendre une nuance : les variables que j'utilise sont "le pourcentage de la population active utilisant un ordinateur au travail par secteur d’activité et par pays ". Il s'agit d'un pourcentage et non d'effectif comme je l'affirmait.
Cependant la variable "total employment", celle avec laquelle je cherche une dépendance, est en nombre de personne.

Le test du Chi2 ne peut donc plus s'appliquer ici, puisque mes valeurs sont en pourcentage ? Si c'est le cas, dois-je considérer le test de Student avec des variables quantitatives. Je me trouve confrontée à un problème vu que j'ai une variable exprimée dans une autre unité.

Si je ne dois pas effectuer de différence (nombre négatif), je pensais garder le nombre de personne total par pays pour l'année 2016 puis refaire le même test avec l'année 2009. Mais dans ce cas la, je pense ne plus répondre à ma problématique, ma question initiale !

@gerard0, je souhaite tester la dépendance ou l'indépendance des variables explicatives et de la variable expliquée en effet. Je comptais refaire le test en changeant à chaque fois la variables explicative.

@jma, je suis bien allée chercher les différents types de variables, et je les ai étudié. Pour vous la valeur de p-value semble étrange du fait que le logiciel, puissant, devrait rendre un nombre très petit mais pas 0, c'est ça ?
J'ai effectué ce même test avec des jeux de données différents, et j'obtiens bien des p-values correctes (0,057 / 0,078...). Il ne s'agit, je suppose, que de mes données...