Incertitudes dans un sous-échantillon...

SXB · June 2013

Bonjour

Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie O_A de cardinal N_A vérifie une propriété A et une partie O_B de O_A, de cardinal N_B, vérifie une propriété B.

On tire un échantillon de taille n, dont a vérifient A et b vérifient B.

On cherche à évaluer N_B/N_A. L'estimateur le plus naturel est b/a.

On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de N_B/N_A :

Et je pense que c'est là que le bât blesse :

Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :

1.96*RACINE(p(1-p)/K)

Où p=a/b.

C'est à dire, somme toute :

1.96*RACINE(b(1-b/a))/a

Qu'en pensez vous ?

Merci d'avance.

gerard0 · June 2013

Bonjour.

Si NA+NB n'est pas égal à N, cette méthode est incorrecte. L'évaluation par b/a est je le pense la bonne si NA et NB sont du même ordre de grandeur, mais la suite ne concerne que le cas NA+NB=N. Et encore, sous certaines réserves.

De plus je ne comprends pas ta formule 1.96*RACINE(p(1-p)/K) avec un K dont tu n'as jamais parlé; ni la fin.

Cordialement.

SXB · June 2013

Le K était juste utilisé pour dire que l'on fait comme si l'on avait un échantillon à part entière (qui serait de taille K) avec la partie de l'échantillon qui vérifient la propriété A.

Et on n'a pas N_B+N_A=N car les individus vérifiant B vérifient A (ce sont une partie de ces derniers).

En gros ce que je demande, c'est "est-ce que l'on peut raisonner avec une partie d'un échantillon comme on raisonnerait avec un échantillon tout entier quand on évalue des incertitudes" ?

Par exemple, si je voulais évaluer l'incertitude planant sur N_A/N, il serait correct d'utiliser :

1.96*racine((a/n)(1-a/n)/n)

Mais est-ce qu'il est correct d'évaluer l'incertitude planant sur N_B/N_A par :

1.96*racine((b/a)(1-b/a)/a) ???

Merci d'avance.

gerard0 · June 2013

A priori,

on peut estimer NB/NA par b/a, mais je ne vois pas pourquoi l'incertitude (l'intervalle de confiance) serait donné par ce que tu proposes. l'ensemble des A n'est pas un échantillon pris au hasard. C'est déjà une règle approximative pour NA/N, mais justifiable. Dans ton cas, je n'ai pas de justification. Je pense même que c'est une valeur plutôt faible, car a est variable.

Cordialement.

NB : Les B sont des A est un renseignement qui manquait dans ton premir message.

SXB · June 2013

Merci : vous me confirmez donc que cette formule n'est pas transposable aux sous-échantillons !
Ce n'est pas moi qui m'a propose mais des collègues qui l'utilisent.
Du coup quel estimateur des bornes de l'IC (asymptotique) de NB/NA peut-on pendre ?

Merci d'avance.

PS : j'avais bien dit implicitement que tous les B sont des A (en introduisant OB en tant que partie de OA) mais j'avoue que ce n'est pas forcément très clair.

Auguste3 · July 2013

Bonsoir, une approximation de la variance de l'estimateur b/a est

(si r=b/a)

(1/r**2) * ( Var(a) + r**2 * Var(b) -2*r*Cov(a,b) )

C'est un résultat classique de la théorie des sondages.

Cordialment,
Auguste

SXB · July 2013

Bonjour.

Merci pour cette formule.

J'essaie de la décrypter :
Le "*" semble signifier "produit"‚ tandis que le "**" semble signifier "au carré".

Est-ce bien ça ?

Merci d'avance.

Auguste3 · July 2013

Bonjour.

C'est bien cela.
Quelques références sont:

"Sampling Techniques", G. Cochran, pag. 30 ('Estimation of a ratio')
"Théorie des sondages", Y. Tillé, pag. 201 ('Estimation par le quotient')

Cordialment,
Augusto

SXB · July 2013

Merci beaucoup.

J'ai hâte de voir la démo (je vais essayer tout seul avant).

Steven Neutral · July 2013

Je crois qu'Auguste parle d'une approximation générale sur la variance du rapport de deux estimateurs, et quand c'est trop général c'est trop approximatif.

Pour ton IC tu peux raisonner conditionnellement, c'est-à-dire faire comme si $N_A$ était fixe.

Auguste3 · July 2013

Bonsoir Steve:

Exactement, c'est une approximation général à partir du développement de Taylor d'ordre.... 1 de la fonction g(z,w)=z/w.

Cordialment,
Auguste

SXB · July 2013

J'aurais dû penser à faire ce développement (je vais essayer de le faire à l'ordre 2) :

On a :

b/a=(b-E(b)+E(b))/(a-E(a)+E(a))

=(E(b)/E(a)).(1+e_b)/(1+e_a) //Où e_a=(a-E(a))/E(a) et e_b=(b-E(b))/E(b)).

=(E(b)/E(a)).(1+e_b).(1-e_a+e_a²+O_L(e_a³)

=(E(b)/E(a)).(1-e_a+e_a²+e_b-e_ae_b+O_L(max²(e_a,e_b))

Et ensuite ?

Steven Neutral · July 2013

Qu'est-ce que tu veux faire avec ça ? Après il faudra encore que tu estimes Var(a), Var(b), et Cov(a,b), tout ça est beaucoup trop approximatif.

Je t'ai donné une façon de construire un intervalle de confiance exact.

SXB · July 2013

Disons que considérer a comme fixe (raisonner comme conditionnellement à a) permet d'avoir un intervalle de confiance ... conditionnellement à a. Or, moi je souhaiterais avoir un vrai intervalle de confiance (de N_b/N_a).

Ma crainte est que si N_a << N alors cet intervalle de confiance conditionnellement à a (que pour les estimations numériques on prendrait égal à E(a)) soit une mauvaise approximation du vrai IC de N_b/N_a, sachant que dans la réalité, on ne connait à l'avance ni a, ni b.

En effet, si l'échantillon est de quelques centaines ou de quelques milliers, on peut avoir une grosse incertitude sur a (dans le cas où l'on n'a pas a>>1). Cette dernière se traduit alors quantitativement différemment selon que l'on considère a comme fixe ou non.

Steven Neutral · July 2013

Un intervalle de confiance conditionnel à 95% est aussi un intervalle de confiance inconditionnel à 95% (la réciproque est fausse).

Incertitudes dans un sous-échantillon...

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 4