Intervalle de confiance et test d'hypothèse

Bonjour,

Mettons que l'on se donne une loi normale de variance connue égale à 1 et de moyenne $\mu_0$ inconnue (mettons qu'elle vaut 5 pour l'illustrer). L' intervalle : $[\bar{X}_n-\frac{q\sigma}{\sqrt{n}},\bar{X}_n-\frac{q\sigma}{\sqrt{n}}]$ est un intervalle de confiance à $95 \%$ signifie : $P(\mu_0 \in [\bar{X}_n-\frac{q\sigma}{\sqrt{n}},\bar{X}_n-\frac{q\sigma}{\sqrt{n}}])=0.95$ . Grosso modo celà veut dire qu'en simulant une suite finie d'échantillons de loi normale et en calculant pour chaque échantillon son intervalle de confiance empirique, j'aurai une proportion d'environ* égale à $95\%$ d'intervalles de confiance qui contiendront $5$.


Si l'on fait un test d'hypothèse (l'hypothèse étant que la moyenne est égale à 5) au seuil $\alpha=5\%$ celà signifie que sous validité/condition de l'hypothèse (ce qui est bien vérifiée ici)
$ P_{H_0}(\bar{X}_n \in [\mu-\frac{q\sigma}{\sqrt{n}},\mu-\frac{q\sigma}{\sqrt{n}}])=0.95$. Grosso modo celà signifie que sous l'hypothèse $H_0$ dans environ $95\%$ des cas la moyenne empirique appartiendra à l'intervalle $[\mu_0-\frac{q\sigma}{\sqrt{n}},\mu_0-\frac{q\sigma}{\sqrt{n}}]$

Puisque $P(\mu \in [\bar{X}_n-\frac{q\sigma}{\sqrt{n}},\bar{X}_n-\frac{q\sigma}{\sqrt{n}}])=0.95 \Leftrightarrow P(\bar{X}_n \in [\mu-\frac{q\sigma}{\sqrt{n}},\mu-\frac{q\sigma}{\sqrt{n}}])=0.95$ on peut en déduire une formulation équivalente entre intervalle de confiance et tests d'hypothèses.

1) Maintenant que se passe t'il lorsque la taille de l'échantillon $n$ croit? La taille de l'intervalle de confiance diminue mais la moyenne empirique est plus précise pour estimer la moyenne théorique. Est ce que dans le cadre d'une simulation le fait de faire varier $n$ va changer quelque chose sur la proportion de fois où la moyenne théorique appartiendra à l'intervalle de confiance ?

2) Pourquoi obtient t'on simplement une proportion approximative de 95% ? Peut on connaitre la précision de cette approximation ?


PS: Les simulation se font dans le cadre iid.

Réponses

  • PS: $q$ est le quantile à 97.5%
  • Un détail : c'est mieux de noter $$P([\bar{X}_n-\frac{q\sigma}{\sqrt{n}},\bar{X}_n-\frac{q\sigma}{\sqrt{n}}] \ni \mu_0)=0.95$$ ("probabilité que l'intervalle contienne $\mu_0$", car c'est l'intervalle qui est aléatoire).

    Pourquoi aurait-on $\approx 0.95$ ? C'est un intervalle de confiance exact.
  • Car les phrases où je parle de "proportion" au lieu de "probabilité" (où le mot "environ" à la place du "égale") concernent le cas empiriques (ie) celui des simulations numériques. Et sur ma machine je constate une proportion de 0.94 où parfois 0.96 de fois où l'intervalle de confiance "empirique" contient 5.
  • Voici un travail que j'ai fait pour clarifier les choses. J'ai toujours du mal:
    1) à bien distinguer les rôles de $N$ et $n$

    2) A prévoir/estimer l'ecart par rapport à la valeure 0.95

    https://snag.gy/oWpQmr.jpg
  • Je réponds à des questions du premier message :
    1) " Est ce que dans le cadre d'une simulation le fait de faire varier n va changer quelque chose sur la proportion de fois où la moyenne théorique appartiendra à l'intervalle de confiance ? " non, puisque c'est la même confiance. mais ce n'est plus le même intervalle.
    2) a) "Pourquoi obtient t'on simplement une proportion approximative de 95% ?" Tu veux dire quand on teste avec des échantillons pros au hasard ? programme de seconde sur la variabilité d'échantillonnage

    b) " Peut on connaitre la précision de cette approximation ?" sur un échantillon donné, non. En moyenne, oui, voir un cours sur l'échantillonnage.

    Cordialement.
  • @Gerard merci!!!!
    Super explication. Ps: je n' ai jamais vu la variabilité d' échantillonnage mais c' est peut être ce que j' ai prouvé dans mon lien manuscrit?
  • Oh, la variabilité d'échantillonnage n'est que la constatation que l'échantillon étant pris au hasard, n'importe quelle suite des valeurs possibles peut être obtenue. par exemple, avec la même loi Normale centrée réduite, (0,0.2,0.5,-0.1,-0.4) est un tirage possible, (1,1,1,1,1) aussi. La moyenne n'est pas la même.
  • Bonsoir,

    Rapidement dit :

    J'ai bien l'impression qu'il faut revenir à la philosophie de la statistique classique (i.e. le fréquentisme) : on se donne une famille de lois et un paramètre puis l'on extrapole ses propriétés à l'échantillon. Le paramètre est fixé tandis que la famille de lois est varie et lui apporte ses propriétés.

    En ce qui concerne le bayésianisme, l'échantillon est fixé alors que le paramètre varie suivant une famille de lois.

    Pour les fameux algorithmes, dont on nous parle dans beaucoup de médias, on peut rêver de nouveaux Fisher, de nouveaux Pearson,... nous indiquent peut-être une théorie un peu plus solide avant que la bulle ne se dégonfle progressivement (?) pour n'être qu'utiliser dans des domaines de recherche très spécialisés.

    Cette idée de fréquentisme est peut-être très importante à comprendre pour aborder beaucoup de notions en statistique classique.

    Cordialement.
  • Réctification de la dernière phrase du premier paragraphe : le paramètre varie alors que la famille de lois est fixée a contrario de l'approche bayésienne.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.