Variance d'un échantillon
Dans cette article Teaching Statistical Inference in Elementary Mathematics Courses , page 149, second paragraphe, il calcule la variance d'un échantillon de taille n dans une population de taille N, ou visiblement , n n'est pas négligeable par rapport à N. Du coup il dit que selon un calcul algébrique élémentaire il obtient $\sigma^2 \left(\frac{1}{n}-\frac{1}{N}\right)$.
Plus loin il réitère lorsqu'il veut appliquer Chebyshev, avec :
Je ne comprends pas d'où sort ce $\frac{1}{N}$ ? Toute clarification est appréciée.
Plus loin il réitère lorsqu'il veut appliquer Chebyshev, avec :
Je ne comprends pas d'où sort ce $\frac{1}{N}$ ? Toute clarification est appréciée.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
La variance d'une variable aléatoire, ce n'est pas tout à fait la même chose que la variance d'un échantillon.
Ton calcul est fait ici : http://www.et.bs.ehu.es/~etptupaf/nuevo/ficheros/stat4econ/muestreo.pdf
Regarde à partir de la page 57.
Ta moyenne s'écrit $\overline X = \frac{1}{n} \cdot \sum_{i=1}^{N} x_i \cdot 1_{i \in S}$, où $S$ est l'ensemble aléatoire $S\subset \{1,\dots,N\}$ de cardinal $n$ qui a été pioché.
On a $E[1_{i\in S}] = \frac{n}{N}$, (c'est une variable de Bernoulli)
et elles sont corrélées négativement car $\sum_{j=1}^{N}1_{j\in S} = n$, donc $var(1_{i\in S}) + (n-1)cov(1_{i\in S},1_{j\in S}) = 0$.
Une question, sur la présentation donnée, transparent 78, il parle de l'intervalle de confiance, à $1-\alpha$.
Le $z_{\alpha/2}$ est bien plus grand que celui utilisé dans le cas de tirages indépendants.
Pour $1-\alpha=0.95$, doit-on remplacer 1.96 (du CTL) par un 5 venant de Chebychev ?
si j'ai une expérience statistique, sur une population , avec paramètres $\theta$ = $(\mu , \sigma^2=\frac{1}{N}\sum_{i=1}^N (x_i-\mu)^2 )$ (et $s^2=\frac{1}{N-1}\sum_{i=1}^N (x_i-\mu)^2$) :
avec un espace $\mathscr{X}$ des échantillons de taille $n$ muni de la loi induite $\mathbb{P}_{\theta}$.
1/ $\hat{x}=\frac{1}{n}\sum_{i=1}^n x_i$ est un estimateur non biaisé de $\mu$, avec $\operatorname{Var}_\theta(\hat{x})=\frac{s^2}{n}\left(1-\frac{n}{N}\right)$. Du coup j'ai un intervalle de fluctuation avec Chebychev.
2/ et la variance empirique corrigée $\hat{s^2}(x)=\frac{1}{n-1}\sum_{i=1}^n (x_i -\hat{x})^2$ est un estimateur non biaisé de la variance corrigée $s^2$. Pour avoir un intervalle de fluctuation avec Chebychev de $\hat{s^2}(x)$ j'ai besoin de connaitre d'avoir plus d'information sur la population.
3/ Dans le cas les échantillons sont formées de $n$ observations i.i.d, il est plus facile de calculer $\operatorname{Var}_\theta(\hat{x})=\frac{\sigma^2}{n}$, et alors $\mathbb{E}_\theta(\hat{s^2}(x)) = \sigma^2$, du coup la variance empirique corrigée est un estimateur non biaisé de la variance.