Intervalle de confiance et taille échantillon

Romanesco · June 2021

Bonjour
Une question, sans doute simple, me tracasse un peu.

Lorsque l'on veut réaliser un intervalle de confiance pour une proportion dans une population, on constate une fréquence f dans un échantillon de taille n et on utilise traditionnellement l'intervalle de confiance, à 95% par exemple : [f-1.96racine(f(1-f)/n); f + 1.96 racine(f(1-f)/n)]
Ce qui fait que, selon l'amplitude de l'intervalle qu'on veut se fixer, on peut calculer la taille d'échantillon désirée.

Or cette taille d'échantillon ne dépend pas du tout de la taille de population de départ.
Par exemple, on peut obtenir une taille d'échantillon supérieure à celle de la population si on est un peu trop exigeant sur l'amplitude désirée.
Est-ce l'approximation de l'intervalle qui fait ça (et dans ce cas existe-t-il un moyen de tenir compte de la taille de la population) ou bien, plus probable, est-ce moi qui ai loupé quelque chose ?
Merci d'avance.

Calli · June 2021

Bonjour,
Si je ne dis pas de bêtise, c'est un intervalle de confiance asymptotique. On suppose que le résultat pour chaque personne sondée est une variable aléatoire de Bernoulli de paramètre $p\in[0,1]$, avec $p$ indépendant de la personne (c'est la vrai proportion de gens qui possèdent la caractéristique étudiée) et on suppose que ces v.a. sont indépendantes. Et, en notant $X_n$ le résultat pour la $n$-ième personne, on utilise le théorème central limite qui dit que $\frac1{\sqrt{n}} \sum_{k=1}^n (X_k-p)$ converge en loi quand $n\to\infty$ vers la loi normale ${\cal N}(0,p(1-p))$. Comme on regarde la limite quand $n\to\infty$, ça revient en quelque sorte à considérer qu'on a un réservoir infini (ou arbitrairement grand) de gens qu'on peut sonder. Ça explique que la formule ne tienne pas compte de la taille de la population entière. Quand $n$ s'approche de la taille de la population, l'intervalle de confiance est alors plus large que nécessaire.

Romanesco · June 2021

Ok merci c'est très clair !

gerard0 · June 2021

Bonjour Romanesco.

Des compléments :
* Cette formule suppose que la proportion p dans la population ne soit pas trop proche de 0 ou de 1 (l'approximation par la loi Normale ne se justifierait plus, sauf avec des échantillons énormes pris dans une population bien plus étendue.
* Cette formule suppose que la taille de l'échantillon soit très inférieure à celle de la population (approximation par la loi binomiale, fausse si l'échantillon est une partie importante de la population.
* La loi de la distribution des échantillons est la loi hypergéométrique, utilisée pour des populations faibles (et des échantillons nécessairement partie importante de la population). Cette loi, pour un échantillon petit par rapport à la taille de la population s'approxime bien par la loi binomiale, qui elle-même s'approxime bien par la loi Normale si p n'est pas trop proche de 0 ou 1.

Cordialement.

Romanesco · June 2021

Merci.

Effectivement ce sont des choses que je sais, mais j'ai du mal à regarder les choses de haut quand il s'agit de probas ou stats.
Et pourtant je trouve ça passionnant !

marsup · June 2021

Bonjour tout le monde,

À noter, que l'approximation de la loi hypergéométrique par la loi binomiale est pessimiste sur les intervalles de confiance.

En effet, la variance de la loi hypergéométrique (échantillonnage sans remise) dans une population fixée croît plus lentement avec la taille de l'échantillon que celle de la loi binomiale (avec remise).

(autrement dit, la fréquence empirique a sa variance qui s'effondre plus rapidement autour de la proportion à estimer (estimation sans biais) quand on échantillonne sans remise qu'avec)

Romanesco · June 2021

Et justement, ces approximations sont elles toujours autant d'actualité en pratique avec les outils informatiques ?

marsup · June 2021

Oui, bien sûr que, même avec un gros ordinateur, on approxime quand même, dans certaines situations.

Si tu fais un sondage pour l'élection présidentielle, sur un échantillon de 1000 ou 1500 personnes selon la méthode des quotas, ce n'est pas la peine de se casser la tête avec l'échantillonnage hypergéométrique sur une population totale d'environ 40 millions d'électeurs :)o

Calli · June 2021

Soient $H$ une v.a. suivant la loi hypergéométrique de paramètres $N$ (taille de la population), $n$ (taille de l'échantillon) et $p$ (part de la population qui présente la caractéristique étudiée), et $B$ suivant ${\cal B}(n,p)$. $H$ et $B$ sont toutes deux d'espérance $np$. Je me demande si $|B-np|$ ne dominerait pas stochastiquement $|H-np|$ ? C'est-à-dire, est-ce que : $$\forall t\in\Bbb R, \quad \Bbb P(|B-np|>t) \geqslant \Bbb P(|H-np|>t) \ \ ?$$ C'est exactement dire que les intervalles de confiance donnés par la modélisation avec $B$ sont plus pessimistes (plus larges) que les vrais intervalles de confiance pour $H$. C'est aussi équivalent au fait qu'il existe une loi conjointe pour le couple $(H,B)$ qui ait les bonnes marginales et telle que $|B-np| \geqslant |H-np|$ p.s.. Ce serait une mesure vraiment précise du fait que $H$ est plus proche de $np$ que $B$, bien plus précis que la variance. Mais je n'ai pas réussi à l'établir.
Je sais juste qu'il existe une loi conjointe pour $(H,B)$ qui ait les bonnes marginales et telle que $\Bbb E[B\mid H]=H$ p.s., ce qui est déjà une façon intéressante de dire que $B$ est plus dispersé que $H$. Ça implique que $\Bbb V(B)\geqslant \Bbb V(H)$ par Jensen, mais c'est plus fort que ça.

marsup · June 2021

Ça m'a l'air un peu ambitieux, Calli, vu que $p\times N$ peut tomber entre les trous des valeurs entières, mais peut-être...

Je trouve ceci http://www.stat.yale.edu/~yw562/teaching/684/hw1_pset.pdf qui part sur ton idée de couplage.

J'imagine que si ton énoncé était vrai, le devoir-maison n'aurait pas manqué de demander de le démontrer ?

marsup · June 2021

Par contre, ça montre bien que $|B-np|^a$ a toujours une espérance plus grande que $|H-np|^a$, pour tout $a\ge 1$.

marsup · June 2021

Ici https://www.cs.purdue.edu/homes/hmaji/teaching/Spring 2018/lectures/08.pdf (4ième slide en partant de la fin) on voit la même idée, mais pas d'affirmation précise ni de preuve non plus (ensuite, c'est le couplage). 123550

Calli · June 2021

Merci pour tes recherches marsup. :-)

Intervalle de confiance et taille échantillon

Réponses

Lettre d'information