Loi de t avec P(X<t) =a

Bonjour.

[édit : J'ai posé le problème de travers - je modifie le titre]

Dans un sujet du forum statistiques "tables statistiques", Florian Sérouart recherche la façon de construire des coefficients tabulés. Après réflexion (et une incompréhension de départ) il me semble qu'on peut ramener le problème à déterminer la loi de $P(X < t)$ connaissant une statistique $(X_1; X_2; ... X_n)$ où X suit une loi Normale et les $X_i$ sont des réalisations de X (ou, si vous préférez, les $X_i$ suivent indépendamment la même loi que $X$.
Avez - vous des pistes à lui soumettre, ici ou sur le fil d'origine ? L'idéal serait que seuls la moyenne empirique et l'écart type d'échantillon interviennent.

Cordialement

Réponses

  • Bonjour Gérard,

    Si l'on est sûr que X suit bien une loi normale, l'estimation de la fonction de répartition est simple: c'est la fonction de répartition d'une loi normale dont la moyenne et la variance sont égales à la moyenne et à la variance empiriques.
    Si l'on ne sait pas si X suit une loi normale, on peut commencer par faire un test d'adéquation à partir des Xi, ce test fera intervenir de toute façon les moments empiriques. Si le test rejette l'hypothèse, les estimateurs non paramétriques de la fonction de répartition ne feront plus intervenir les moments empiriques.
    En espérant avoir répondu plus ou moins à la question ...

    Amicalement,
  • Merci Kuja.

    En fait, j'ai besoin non d'une estimation de la fonction de répartition, mais d'un intervalle unilatéral de confiance $[a, +\infty[$ sur (contenant) l'intervalle $[m - t_{\lambda} \sigma, +\infty[$ dans lequel la probabilité que X soit est supérieure à un seuil $\lambda$. J'ai vu sur le Saporta que les statisticiens parlent "d'intervalle de tolérance avec niveau de confiance". Donc ce n'est pas l'estimation de P(X<t) dont j'ai besoin, mais un intervalle de confiance sur lui, j'imagine.

    Cordialement.
  • Bonjour Gérard,

    Je relis ton message avec attention et j'essaie de voir ce que j'en tire.

    Amicalement,
  • Bonjour.

    Après réflexion, je me rends compte que je pose mal le problème : Il me semble que la bonne question est celle-ci :
    Soit X une VAR gaussienne et $\alpha$ un réel entre 0 et 1 (un seuil de risque, en fait). On appelle t le réel tel que $P(X<t)=\alpha$. Je cherche comment construire un intervalle de confiance $[\beta , +\infty[$ sur t à partir de n réalisations $X_1$, $X_2$, ...$X_n$ de X.
    Donc c'est plutôt la loi de t connaissant $X_1$, $X_2$, ...$X_n$ qui est en cause.
    Je modifie le titre en conséquence.

    Cordialement.
  • Bonjour Gérard,

    Si je comprends bien, tu cherches un intervalle de confiance pour un quantile.
    Je note $F$ la fonction de répartition théorique des observations, $F_n$ la fonction de répartition empirique classique calculée sur les observations, $\xi_p$ le quantile tel que $F(\xi_p)=p$ ($p$ joue le rôle de ton $\alpha$ et $\xi_p$ le rôle de ton $t$) que l'on souhaite estimer et $\hat{\xi}_p$ le quantile empirique calculé sur les observations, i.e. tel que $F_n(\hat{\xi}_p)=p$.
    Alors, sous des conditions souvent vérifiées en pratique (je pourrai les lister si tu le souhaites), on a
    \[ \sqrt{n}\left(\hat{\xi}_p-\xi_p\right)\rightarrow \mathcal{N}\left(0,\frac{p(1-p)}{(F'(\xi_p))^2}\right)\]
    en loi. On peut donc construire un intervalle de confiance asymptotique.
    En revanche, je n'ai pas sous la main un résultat où $F_n$ n'est plus la fonction de répartition empirique mais la fonction de répartition de la loi normale avec les moments estimés sur l'échantillon. Je doute que celà change grand chose au résultat final, cependant.

    Amicalement,
  • Merci Kuja.

    Je vais regarder ça. Mais comme les tables de l'ASTM (American society for testing and materials) prennent n de 3 à 25, j'ai peur que l'estimation asymptotique soit insuffisante. Donc si tu retrouves un complément, ça devrait intéresser Florent Sérouart.

    Cordialement.
  • Avec la nouvelle formulation du problème, il me semble qu'il s'agit de regarder la loi de $T=F^{-1}(\alpha \, ; \, \overline{X}, s^2)$ où $F^{-1}(\cdot \, ; \, \mu,\sigma^2)$ est la fonction de répartition inverse de la loi $\mathcal{N}(\mu,\sigma^2)$ et $\overline{X}, s^2$ les moments empiriques. Comme l'a dit Kuja ce n'est pas exactement la même chose que de regarder la fonction de répartition empirique. On peut réécrire $T=\overline{X}+s^2 q_{\alpha}$ où $q_{\alpha}=F^{-1}(\alpha \, ; \, 0,1)$ est le quantile pour la loi normale standard, donc à partir d'intervalles de confiance unilatéraux sur $\overline{X}$ et $s^2$ on en déduit un sur $T$ (on peut faire un peu mieux avec Cochran me semble-t-il mais bon).
  • Bonjour Egoroff.
    à partir d'intervalles de confiance unilatéraux sur $ \overline{X}$ et $ s^2$ on en déduit un sur $ T$
    C'est un peu ce qu'avait fait F. Sérouart au début, mais pas une simple addition. C'est très loin des valeurs de la table qu'il voulait comprendre (voir ici, messages 2 et 12 (si j'ai bien compté).
    D'ailleurs, comment construis-tu un intervalle de confiance sur la somme de deux VA indépendantes à partir d'intervalles sur chacune ?

    Cordialement.
  • OK, merci pour le lien, je vais aller regarder le fil. Il me semble que si on dispose d'intervalle de confiance au niveau $\alpha/2$ pour $U$ et $V$, alors la somme des deux intervalles est est un intervalle de confiance au niveau $\alpha$ pour $U+V$, indépendance ou non ? Je me fourvoie peut-être... Dans le cas où il y a indépendance et lorsque les intervalles de confiance sont déduits d'un écart-type on doit pouvoir faire un peu mieux

    [PS : en plus il y a une erreur dans mon message ci-dessus, il faut lire $T=\overline{X}+\sqrt{s^2} q_{\alpha}$]
  • Je n'ai pas trop le temps aujourd'hui, mais en vitesse peut-être une piste.
    Si l'asymptotique que j'ai donnée tout à l'heure n'est pas suffisante, il est possible d'aller chercher des termes d'ordre supérieurs.
    Pour la foncttion de répartition de la différence, on peut penser à une Edgeworth expansion. Pour son inverse (ce qui est le cas qui nous intéresse), ça donne une Cornish-Fisher expansion. Ces sujets sont bien renseignés sur le web je pense.

    Cependant, il y a encore une subtilité. Dans toutes les approximations, il y aura le facteur $F'(\xi_p)$ quelque part, qui n'est pas connu de manière exact et qu'il faut en plus estimer.

    Bref, j'ai une question quand même : est-il précisé quelque part à partir de quoi sont construites les tables fournies dans l'autre post ?

    Amicalement,
  • Merci Kuja.

    J'ai bien peur que les tables soient données sans explication : Elles sont à destination d'utilisateurs industriels qui généralement se moquent de savoir le pourquoi des valeurs (*). Mais là, on a la chance qu'un utilisateur veuille savoir.

    Cordialement.

    (*) C'est à peu près la même chose pour les normes AFNOR de statistiques. La plupart des tests sont donnés sans explication. Idem pour les stats de qualité dans l'industrie alimentaire (HACCP).
Connectez-vous ou Inscrivez-vous pour répondre.