p-value avant entretien d'embauche

Bonjour,

J'essaie à nouveau de comprendre pourquoi une p-value devient significative lorsque l'échantillon est de grande taille. Conformément à cet article: http://blog.minitab.com/blog/statistics-and-quality-data-analysis/large-samples-too-much-of-a-good-thing , je considère le t-test. La taille de l'intervalle de confiance de la différence des moyennes est inversement proportionnelle à la racine carré de la taille du plus petit de nos deux échantillons. Cela veut dire que plus on a d'échantillons plus l'intervalle de confiance se ressert autour de la moyenne.

Faisons une expérience: si à l'aide de R je m'intéresse à l’expérience suivante : je tire 1000 réalisations d'une loi normale centrée réduite. Puis je réalise un test sur la moyenne de cet échantillon avec un niveau de confiance de 95%, je devrais sans doute obtenir une p-value qui corrobore le fait que j'obtiens une moyenne nulle 95 fois sur 100.
Si je refais la même expérience avec 10000000 de tirages j'obtiendrai "très souvent" une p-value contre-indiquant que la moyenne est nulle du fait de la taille de l’échantillon est très grande (et pourtant on aura bien tiré une loi centrée réduite avec R). Comment expliquer cela ? En principe même si la taille n de l'échantillon intervient dans la taille de l'intervalle de confiance, il elle intervient également dans le nombre de degrés de libertés de la loi de Student (pour contrebalancer l'effet précédent) !

En mieux expliqué avec le t-test: http://goodsciencebadscience.nl/?p=471
Du coup je ne comprends pas !! Dans cet exemple (avec 20000 tirages) on rejette 73% du temps l'hypothèse nulle comme quoi les deux échantillons ont la même moyenne alors que pourtant on les a bien tiré selon la même moyenne ! On s’attendrait à rejeter ce test seulement 5% du temps ! La théorie est-elle fausse ? Ou comme le commentaire le stipule, est-ce le générateur aléatoire qui est "mauvais" et donc les tirages ne sont pas réellement iid ce qui finit par se voir sur un grand échantillon vu que lorsque la taille de l'échantillon augmente le test devient "de plus en plus" sensible aux écarts des moyennes (même si en terme métier cet écart n'a peut être aucune influence) et la p-value devient très rapidement très petite si une valeur légèrement anormale apparaît.

Réponses

  • Bonjour student2

    C'est facile de l'expliquer, parce que c'est totalement faux. ;-) Plus la taille de l'échantillon augmente, et plus la moyenne empirique de ta série générée sera elle-même proche de 0. Peu importe alors que la taille de l'intervalle de confiance se resserre.

    C'est simple de le vérifier :
    > x <- rnorm(100000, 0, 1)
    
    > mean(x)
    [1] -0.001275632
    
    > t.test(x)
    
    	One Sample t-test
    
    data:  x
    t = -0.40155, df = 99999, p-value = 0.688
    alternative hypothesis: true mean is not equal to 0
    95 percent confidence interval:
     -0.007502102  0.004950837
    sample estimates:
       mean of x 
    -0.001275632 
    
    Cordialement.

    [Inutile de reproduire le message précédent. AD]
  • Bonjour.
    Dès la première phrase, il y a une énormité :

    "... comprendre pourquoi une p-value devient significative lorsque l' échantillon est de grande taille"

    Si le risque du test est 5%, si la p-value est 8%, le test n'est pas significatif, que l'échantillon soit de 10 ou de 10 millions.
    Mais peut-être veux-tu parler d'autre chose ? Dans ce cas, vu ce que tu es censé savoir, il serait bon que tu révises le vocabulaire des tests statistiques.

    Cependant la suite montre que ce n'est pas seulement une question de vocabulaire :
    " je tire 1000 réalisations d'une loi normale centrée réduite. Puis je réalise un test sur la moyenne de cet échantillon avec un niveau de confiance de 95%, je devrai sans doute obtenir une p-value qui corrobore le fait que j'obtiens une moyenne nulle 95 fois sur 100. "
    Non. Tu vas obtenir une p-value qui sera généralement supérieure à 0,05, mais pas toujours. Si tu fais une seule fois le test, tu auras une seule p-value. Si elle est inférieure à 0,05, le test échoue. En général, on traduit cela en refusant l'hypothèse, mais comme tu sais qu'elle est vraie, tu en conclus que "tu es mal tombé" (ça arrive une fois sur 20)
    "Si je refais la même experience avec 10000000 de tirage j'obtiendrai "très souvent" une p-value .." Non, encore une fois, tu n'auras qu'une seule p-value, avec le même raisonnement que ci-dessus.

    Tu sembles confondre "grand échantillon" avec "répétition d'expériences".

    Attention : Tout ça, c'est du cours de base sur les tests d'hypothèses.

    Cordialement.
  • Merci, sujet à complkete car ce n est toujours pas très clair.

    Merci Milamber d' avoir montré un exemple concret, cependant l' intervalle de confiance à 95 pourcent ne contient pas la moyenne de ton echantillon, ce qui signifie en principe qu on rejette le test et pourtant la p value est superieur à 5 pourcent ce qui indique qu' on ne rejette pas le test. Il y a une contradiction non? De plus on est bien d' accord que l' hypothese H0 est que 0 est la moyenne de l' echabtillon?
  • Student2,

    pourquoi dis-tu "cependant l' intervalle de confiance à 95 pourcent ne contient pas la moyenne de ton echantillon"

    alors que le résultat est
    95 percent confidence interval:
    -0.007502102 0.004950837
    sample estimates:
    mean of x
    -0.001275632

    Cordialement.
  • Ah mea culpa j ai lu trop vite et ai oublié un 0...

    Par contre gerard as tu vu ce lien http://goodsciencebadscience.nl/?p=471 ? Est ce que ce que dit l' auteur est faux?


    "When the sample size increases this has as a consequence that very small effect sizes can become significant. I did an independent samples t-test over two simulated groups on a variable over which they are normally distributed. This was repeated 1000 times with a sample size of 200 persons per group and 1000 times with a sample size of 20000 persons per group (see figure 1.). I analyzed what proportion of these t-test are significant. Note that even if there is no effect or the effect is too small to detect, you expect to find at least 5 percent of the t-test to be significant due to a significance level of .05 (type I error). When the total sample size consists of 400 persons (200 per group) you will find in approximately 5.6% of the times a significant effect (running this several times resulted in values between .05 and .06). The proportion of times the null hypothesis is rejected increases when you use a bigger sample size. When you use groups of 20.000 this proportion increases to approximately 73.3%."
  • Le lien me semble correct à première lecture rapide (et partielle); c'est un effet bien connu des trop gros échantillons. mais ça n'est pas ce que tu disais dans ton message.
    Dans l'expérience faite par l'auteur, il ne s'agit pas de statistiques réelles, et ce qui est en cause est probablement la fiabilité de son générateur pseudo-aléatoire. Mais comme il ne décrit pas complétement sa procédure, difficile de savoir. Pour l'expérimentation de Lykken, il s'agit de vraies statistiques. Et déjà, par exemple, le fait qu'une variable supposée gaussienne soit bornée, ou entière, va introduire des éléments parasites.

    Cordialement.
  • Bonsoir,

    J'avais lu ce fil au moment de son début. Même si c'est un peu tard, je voudrais faire quelques remarques. La p-value est un mesure de l’inadéquation de l'estimation avec l'hypothèse nulle extrêmement sensible à la taille de l'échantillon même sur des petits échantillons (si on double simplement l'effectif d'un petit échantillon, on voit une baisse flagrante de la p-value). Ceci a tel point que l'on peut voir deux études qui prouvent une chose et l'autre son contraire en se basant sur la p-value et cela devient massif : on rejette presque systématiquement l'hypothèse nulle qui privilégie le consensus. L'utilisation de p est véritablement remise en question voire proscrite. Des améliorations sont de plus en plus proposées (ex. D-value).

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.