Incertitudes dans un sous-échantillon...

Bonjour

Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie OA de cardinal NA vérifie une propriété A et une partie OB de OA, de cardinal NB, vérifie une propriété B.

On tire un échantillon de taille n, dont a vérifient A et b vérifient B.

On cherche à évaluer NB/NA. L'estimateur le plus naturel est b/a.

On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de NB/NA :

Et je pense que c'est là que le bât blesse :

Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :

1.96*RACINE(p(1-p)/K)

Où p=a/b.

C'est à dire, somme toute :

1.96*RACINE(b(1-b/a))/a

Qu'en pensez vous ?

Merci d'avance.

Réponses

  • Bonjour.

    Si NA+NB n'est pas égal à N, cette méthode est incorrecte. L'évaluation par b/a est je le pense la bonne si NA et NB sont du même ordre de grandeur, mais la suite ne concerne que le cas NA+NB=N. Et encore, sous certaines réserves.

    De plus je ne comprends pas ta formule 1.96*RACINE(p(1-p)/K) avec un K dont tu n'as jamais parlé; ni la fin.

    Cordialement.
  • Le K était juste utilisé pour dire que l'on fait comme si l'on avait un échantillon à part entière (qui serait de taille K) avec la partie de l'échantillon qui vérifient la propriété A.

    Et on n'a pas NB+NA=N car les individus vérifiant B vérifient A (ce sont une partie de ces derniers).

    En gros ce que je demande, c'est "est-ce que l'on peut raisonner avec une partie d'un échantillon comme on raisonnerait avec un échantillon tout entier quand on évalue des incertitudes" ?

    Par exemple, si je voulais évaluer l'incertitude planant sur NA/N, il serait correct d'utiliser :

    1.96*racine((a/n)(1-a/n)/n)

    Mais est-ce qu'il est correct d'évaluer l'incertitude planant sur NB/NA par :

    1.96*racine((b/a)(1-b/a)/a) ???

    Merci d'avance.
  • A priori,

    on peut estimer NB/NA par b/a, mais je ne vois pas pourquoi l'incertitude (l'intervalle de confiance) serait donné par ce que tu proposes. l'ensemble des A n'est pas un échantillon pris au hasard. C'est déjà une règle approximative pour NA/N, mais justifiable. Dans ton cas, je n'ai pas de justification. Je pense même que c'est une valeur plutôt faible, car a est variable.

    Cordialement.

    NB : Les B sont des A est un renseignement qui manquait dans ton premir message.
  • Merci : vous me confirmez donc que cette formule n'est pas transposable aux sous-échantillons !
    Ce n'est pas moi qui m'a propose mais des collègues qui l'utilisent.
    Du coup quel estimateur des bornes de l'IC (asymptotique) de NB/NA peut-on pendre ?

    Merci d'avance.

    PS : j'avais bien dit implicitement que tous les B sont des A (en introduisant OB en tant que partie de OA) mais j'avoue que ce n'est pas forcément très clair. :)
  • Bonsoir, une approximation de la variance de l'estimateur b/a est

    (si r=b/a)

    (1/r**2) * ( Var(a) + r**2 * Var(b) -2*r*Cov(a,b) )


    C'est un résultat classique de la théorie des sondages.

    Cordialment,
    Auguste
  • Bonjour.

    Merci pour cette formule.

    J'essaie de la décrypter :
    Le "*" semble signifier "produit"‚ tandis que le "**" semble signifier "au carré".

    Est-ce bien ça ?

    Merci d'avance.
  • Bonjour.

    C'est bien cela.
    Quelques références sont:

    "Sampling Techniques", G. Cochran, pag. 30 ('Estimation of a ratio')
    "Théorie des sondages", Y. Tillé, pag. 201 ('Estimation par le quotient')

    Cordialment,
    Augusto
  • Merci beaucoup.

    J'ai hâte de voir la démo (je vais essayer tout seul avant).
  • Je crois qu'Auguste parle d'une approximation générale sur la variance du rapport de deux estimateurs, et quand c'est trop général c'est trop approximatif.

    Pour ton IC tu peux raisonner conditionnellement, c'est-à-dire faire comme si $N_A$ était fixe.
  • Bonsoir Steve:

    Exactement, c'est une approximation général à partir du développement de Taylor d'ordre.... 1 de la fonction g(z,w)=z/w.

    Cordialment,
    Auguste
  • J'aurais dû penser à faire ce développement (je vais essayer de le faire à l'ordre 2) :

    On a :

    b/a=(b-E(b)+E(b))/(a-E(a)+E(a))

    =(E(b)/E(a)).(1+eb)/(1+ea) //Où ea=(a-E(a))/E(a) et eb=(b-E(b))/E(b)).

    =(E(b)/E(a)).(1+eb).(1-ea+ea2+OL(ea3)

    =(E(b)/E(a)).(1-ea+ea2+eb-eaeb+OL(max2(ea,eb))

    Et ensuite ?
  • Qu'est-ce que tu veux faire avec ça ? Après il faudra encore que tu estimes Var(a), Var(b), et Cov(a,b), tout ça est beaucoup trop approximatif.

    Je t'ai donné une façon de construire un intervalle de confiance exact.
  • Disons que considérer a comme fixe (raisonner comme conditionnellement à a) permet d'avoir un intervalle de confiance ... conditionnellement à a. Or, moi je souhaiterais avoir un vrai intervalle de confiance (de Nb/Na).

    Ma crainte est que si Na << N alors cet intervalle de confiance conditionnellement à a (que pour les estimations numériques on prendrait égal à E(a)) soit une mauvaise approximation du vrai IC de Nb/Na, sachant que dans la réalité, on ne connait à l'avance ni a, ni b.

    En effet, si l'échantillon est de quelques centaines ou de quelques milliers, on peut avoir une grosse incertitude sur a (dans le cas où l'on n'a pas a>>1). Cette dernière se traduit alors quantitativement différemment selon que l'on considère a comme fixe ou non.
  • Un intervalle de confiance conditionnel à 95% est aussi un intervalle de confiance inconditionnel à 95% (la réciproque est fausse).
Connectez-vous ou Inscrivez-vous pour répondre.