Statistique suffisante

Bonjour,
je ne comprends pas les notions de statistiques suffisantes, minimales, pivotantes et ancillaires.
Quelqu'un aurait des exemples pour bien comprendre ces différentes notions ?
Merci d'avance.

En fait je ne comprends aucune de ces deux phrases.

"Dans un modèle paramétré, une statistique T est dite suffisante si la loi conditionnelle de l’échantillon sachant la statistique T est libre du paramètre".

"Dans un modèle, une variable aléatoire est dite pivotale si sa loi est libre des paramètres du modèle".

Réponses

  • Je crois que l'exemple le plus simple de statistique suffisante, c'est la loi de Bernoulli. (pour "pivotale", je ne sais pas.)

    si $X_i \hookrightarrow B(p)$ iid, alors $S_n = \sum_{i=1}^n X_i \hookrightarrow B(n,p)$.

    La probabilité d'une observation $P(X_1=\epsilon_1,\dots,X_n=\epsilon_n) = p^{\sum\epsilon_i} \cdot (1-p)^{n-\sum\epsilon_i}$.
    On peut factoriser, pour $k= \sum_{i=1}^n\epsilon_i$, par $P(S_n=k) = \binom{n}{k} \cdot p^{k} \cdot (1-p)^{n-k}$.

    Il vient : $P(X_1=\epsilon_1,\dots,X_n=\epsilon_n) = \frac{1}{\binom{n}{k}} \cdot P(S_n=k)$.

    Donc la probabilité conditionnelle d'une observation $P_{[S_n=k]}(X_1=\epsilon_1,\dots,X_n=\epsilon_n) = 1_{\sum{\epsilon_i} = k} \cdot \frac{1}{\binom{n}{k}}$
    et on s'aperçoit qu'il n'y a plus de $p$.

    La loi conditionnelle de l'échantillon sachant la statistique est libre du paramètre : la statistique est suffisante (ou exhaustive : https://fr.wikipedia.org/wiki/Statistique_exhaustive)

    En fait ce que dit cette formule, c'est que, sachant qu'on a eu $k$ fois 1 et $n-k$ fois 0 dans l'échantillon, tous les $\binom{n}{k}$ échantillons qui satisfont ceci sont équiprobables (c'est juste l'ordre d'apparition des succès qui a été tiré au hasard !) Cette description ne fait pas intervenir la probabilité à estimer $p$.
  • Et j'aime bien raconter cette histoire.

    Si toi, tu lances $n$ fois à "pile ou face" de probabilités $p$, et tu notes $X_1,\dots,X_n$, il me suffit que tu me donnes juste le nombre de lancers $n$ et le nombre de "pile" obtenus $S = \sum X_i$.

    Moi, à ce moment-là, je remplis une urne avec $n$ boules comme suit : $S$ boules "pile" et $n-S$ boules "face".

    Je fais un tirage sans remise des $n$ boules, et ça me permet de simuler $X_1',X_2',\dots,X_n'$ en notant juste l'ordre dans lequel j'aurai obtenu mes $S$ boules "pile".

    Et alors mon échantillon ("virtuel", puisque je l'ai calculé) et le tien ("vrai" parce que tu l'as vraiment pioché grâce à $p$), ont la même loi, alors que tu ne m'as pas transmis la probabilité $p$.

    Donc je fais aussi bien que toi pour obtenir des échantillons, mais sans que tu m'aies transmis la vraie information $p$.

    Si un juge, qui connaît $p$, observe nos productions d'échantillons, il ne saura jamais départager qui de nous deux a accès à la pièce, alors que c'est toi qui y as accès, et moi, non.

    C'est parce que tu m'as transmis toute l'information disponible sur $p$ en me transmettant $S$. (statistique exhaustive) Tout le reste, (l'ordre des succès) c'est du bruit aléatoire qui ne nous apprend rien sur $p$.
  • Un modèle c'est $ (P_{\theta}(dx))_{\theta\in \Theta}.$ Donc $x\mapsto T(x)$ a une loi, image celle de $P_{\theta}$ par $T,$ donc en principe une loi qui dépend de $\theta.$ Et la loi conditionnelle de $X$ sachant $T(X)$ également en principe dépend de $\theta.$ Si par bonheur après tout elle n'en dépend point, et bien $T$ est une statistique suffisante (on disait autrefois exhaustive).
Connectez-vous ou Inscrivez-vous pour répondre.