Statistique exhaustive
dans Statistiques
Bonjour,
J'ai un peu de mal à bien comprendre le concept et les notations (voir ci-dessous la définition tirée de Wikipédia).
Que signifie:
- $P(X=x|S(X)=s,\theta)$: celà signifie t'il bien "la probabilité que X=x sachant que l'on sait que S(X)=x et la valeur du paramètre de la loi:$\theta$ est connue ?
- $P(X=x|S(X)=s,\theta)= P(X=x|S(X)=s)$: celà signifie t'il : si je connais S(X) connaître $\theta$ ne donne aucune information supplémentaire sur la probabilité que X=x. Or je ne vois pas comment celà peut être vérifié, si je connais $\theta$ la loi de X est entièrement déterminée alors qu'un échantillon ne donne qu'une information partielle!! Mon interprétation est sans doute très ffausse, si vous pouvez m'expliquez d'ou vient mon erreur...
Si j'en crois l'explication informelle "S(X) apporte toute l'information nécessaire pour estimer $\theta$ (on ne peut rien en tirer de plus de l'échantillon), j'aurai tendance à le formaliser de cette manière:
$P(\theta|S(X)=s,X=x)=P(\theta|S(X)=s)$ ce qui voudrait bien dire que l'estimateur donne autant d'information que l'échantillon complet.
https://snag.gy/N6AOcg.jpg
J'ai un peu de mal à bien comprendre le concept et les notations (voir ci-dessous la définition tirée de Wikipédia).
Que signifie:
- $P(X=x|S(X)=s,\theta)$: celà signifie t'il bien "la probabilité que X=x sachant que l'on sait que S(X)=x et la valeur du paramètre de la loi:$\theta$ est connue ?
- $P(X=x|S(X)=s,\theta)= P(X=x|S(X)=s)$: celà signifie t'il : si je connais S(X) connaître $\theta$ ne donne aucune information supplémentaire sur la probabilité que X=x. Or je ne vois pas comment celà peut être vérifié, si je connais $\theta$ la loi de X est entièrement déterminée alors qu'un échantillon ne donne qu'une information partielle!! Mon interprétation est sans doute très ffausse, si vous pouvez m'expliquez d'ou vient mon erreur...
Si j'en crois l'explication informelle "S(X) apporte toute l'information nécessaire pour estimer $\theta$ (on ne peut rien en tirer de plus de l'échantillon), j'aurai tendance à le formaliser de cette manière:
$P(\theta|S(X)=s,X=x)=P(\theta|S(X)=s)$ ce qui voudrait bien dire que l'estimateur donne autant d'information que l'échantillon complet.
https://snag.gy/N6AOcg.jpg
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
"cela signifie-t-il bien "la probabilité que X=x sachant que l'on sait que S(X)=x" oui
" et la valeur du paramètre de la loi : $\theta$ est connue ? " Non. Mais lis ce qui est écrit à la fin de la première ligne et au début de la deuxième.
Quant à la signification de l'égalité, elle est écrite juste avant.
Lis-tu les textes ? Ou seulement les formules ?
"ce qui voudrait bien dire que l'estimateur donne autant d'information que l'échantillon complet." ??? Bizarre, ce que tu dis. En tout cas, à prendre avec des pincettes : L'échantillon donne bien d'autres informations que le résultat de l'estimateur. Par exemple pour l'estimateur classique de la moyenne, l'échantillon donne aussi des informations de dispersion, de fréquence des valeurs entre a et b, etc.
Cordialement.
Du coup un peu en HS j'avoue ne pas toujours bien comprendre certaines notations:
1) P(A,B|C)
2) P(A|B,C)
3) P(A|B|C)
Je ne sais pas ce qu'elles signifient...
Pour
1) je dirais que c'est $P(A\cap B |C)$ sans pouvoir aller plus loin
2) Est ce P(A|B \cap C)$ ?
D'ailleurs avec les notation de wikipédia le C est représenté ^par $\theta$ qui est un paramètre et non une v.a. (donc ça n'a également aucun sens!!).
Pour 3) "no sé"
En tout cas j'y met de la bonne volonté, le problème vient je pense un peu aussi de l'imprécision des nombreuses notations...
La probabilité conditionnelle de connaitre le n-échantillon connaissant déjà la valeur de la statistique (l'estimateur) est indépendante du paramètre $\theta$. Je suis désolé si ça vous parait évident mais pour ma part j'ai du mal à bien saisir ce que ça signifie?Quelle importance ça a ? etc...
et surtout concrètement que puis je faire ? Par exemple imaginons que je connaisse la proba conditionnelle de X sachant T et que je connais la valeure de T est ce que je peux simuler un échantillon de meme loi que X ?
Concrétement, cela veut dire que si tu observes la valeur de la somme, alors, quand tu t'intéresses à $\theta$, tu ne gagnes aucune information (sur $\theta$) si on te donne les valeurs des $X_i$.
On se place dans le modèle statistique suivant $\left(\mathcal{H},\mathcal{A},\left(\mathbb{P}_{\theta}\right)_{\theta \in \Theta}\right)$ avec $\mathcal{H}\subset \mathbb{R}^{n}$ et $\Theta \subset \mathbb{R}^{d}$. Informellement, une statistique exhaustive élimine toute l'information superflue dans l'échantillon en ne retenant que la partie informative sur le paramètre $\theta $.
Formellement, une statistique $S$ est dite exhaustive si pour chaque $\theta \in \Theta$ : $$ \mathcal{L}_{\mathbb{P}_{\theta}}\left(X_{1},\ldots,X_{n} |S\left(X_{1},\ldots,X_{n}\right)\right)$$ ne dépend pas de $\theta$ où $\left(X_{1},\ldots,X_{n}\right)$ est un échantillon de loi $\mathbb{P}_{\theta}$.
$$(X,Y)\sim P_{\theta}(dx,dy)=P_{\theta}(dx)K_{\theta}(x,dy).$$ Alors on dit que $Y$ est exhaustive si le noyau de transition $ K_{\theta}(x,dy)$ est constant par rapport a $\theta.$
Pour bien le comprendre avez vous un cas simple (échantillon suivant une loi discrète peut être) et de deux statistiques: l une exhzustive et l' autre non qui rendent compte de cette intuition?
Mettons que $S(X_{1},\ldots,X_{n})$ est exhaustive et donc : $\mathcal{L}_{\mathbb{P}_{\theta}}(X_{1},\ldots,X_{n} |S(X_{1},\ldots,X_{n}))$ ne dépend pas de $\theta$ (et s'écrit donc $\mathcal{L}(X_{1},\ldots,X_{n} |S(X_{1},\ldots,X_{n}))$ . Pour l'illustrer on va reprendre l'exemple donné dans ce fil: où l'on observe un n-échantillon de va iid suivant une loi de Bernouilli et on s'interesse à la statistique $\sum_i^n X_i$.
On montre que pour toute valeur observée et $\forall y$, $P_{\theta}((X_{1},\ldots,X_{n})=(x_1,\ldots,x_n) | \sum X_i=y)=1/\binom{n}{y} (si\ \sum X_i=y;0 \ sinon)$ où n'intervient pas le paramètre inconnu $\theta$: cette quantité est donc parfaitement connue! (on l'a exhibé dans notre exemple)
Dès lors si l'on ne connait que la statistique $S$ ($P_{\theta}(S(X_1,...,X_n)=y)$ ) on connait la loi de l'échantillon $(X_1,...X_n)$** (la réciproque étant toujours vrai évidemment) : $P_{\theta}[(X_1,\ldots,X_n)=(x_1,\ldots,x_n)]=\sum_{y=0}^nP_((X_{1},\ldots,X_{n})=(x_1,\ldots,x_n) | S(X_1,...,X_n)=y)P_{\theta}(S(X_1,...,X_n)=y)$.
"L'information sur S" nous donne autant d'information que l'échantillon "$X_1,...,X_n)$" en entier puisqu' à partir de l'un on peut générer l'autre.
PS: une vidé qui m'a débloqué aussi:
** Par conséquent si l'on sait générer $S$ on saura générer $X$
*
https://snag.gy/gEuzI2.jpg