Incertitudes dans un sous-échantillon...
dans Statistiques
Bonjour
Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie OA de cardinal NA vérifie une propriété A et une partie OB de OA, de cardinal NB, vérifie une propriété B.
On tire un échantillon de taille n, dont a vérifient A et b vérifient B.
On cherche à évaluer NB/NA. L'estimateur le plus naturel est b/a.
On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de NB/NA :
Et je pense que c'est là que le bât blesse :
Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :
1.96*RACINE(p(1-p)/K)
Où p=a/b.
C'est à dire, somme toute :
1.96*RACINE(b(1-b/a))/a
Qu'en pensez vous ?
Merci d'avance.
Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie OA de cardinal NA vérifie une propriété A et une partie OB de OA, de cardinal NB, vérifie une propriété B.
On tire un échantillon de taille n, dont a vérifient A et b vérifient B.
On cherche à évaluer NB/NA. L'estimateur le plus naturel est b/a.
On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de NB/NA :
Et je pense que c'est là que le bât blesse :
Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :
1.96*RACINE(p(1-p)/K)
Où p=a/b.
C'est à dire, somme toute :
1.96*RACINE(b(1-b/a))/a
Qu'en pensez vous ?
Merci d'avance.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Si NA+NB n'est pas égal à N, cette méthode est incorrecte. L'évaluation par b/a est je le pense la bonne si NA et NB sont du même ordre de grandeur, mais la suite ne concerne que le cas NA+NB=N. Et encore, sous certaines réserves.
De plus je ne comprends pas ta formule 1.96*RACINE(p(1-p)/K) avec un K dont tu n'as jamais parlé; ni la fin.
Cordialement.
Et on n'a pas NB+NA=N car les individus vérifiant B vérifient A (ce sont une partie de ces derniers).
En gros ce que je demande, c'est "est-ce que l'on peut raisonner avec une partie d'un échantillon comme on raisonnerait avec un échantillon tout entier quand on évalue des incertitudes" ?
Par exemple, si je voulais évaluer l'incertitude planant sur NA/N, il serait correct d'utiliser :
1.96*racine((a/n)(1-a/n)/n)
Mais est-ce qu'il est correct d'évaluer l'incertitude planant sur NB/NA par :
1.96*racine((b/a)(1-b/a)/a) ???
Merci d'avance.
on peut estimer NB/NA par b/a, mais je ne vois pas pourquoi l'incertitude (l'intervalle de confiance) serait donné par ce que tu proposes. l'ensemble des A n'est pas un échantillon pris au hasard. C'est déjà une règle approximative pour NA/N, mais justifiable. Dans ton cas, je n'ai pas de justification. Je pense même que c'est une valeur plutôt faible, car a est variable.
Cordialement.
NB : Les B sont des A est un renseignement qui manquait dans ton premir message.
Ce n'est pas moi qui m'a propose mais des collègues qui l'utilisent.
Du coup quel estimateur des bornes de l'IC (asymptotique) de NB/NA peut-on pendre ?
Merci d'avance.
PS : j'avais bien dit implicitement que tous les B sont des A (en introduisant OB en tant que partie de OA) mais j'avoue que ce n'est pas forcément très clair.
(si r=b/a)
(1/r**2) * ( Var(a) + r**2 * Var(b) -2*r*Cov(a,b) )
C'est un résultat classique de la théorie des sondages.
Cordialment,
Auguste
Merci pour cette formule.
J'essaie de la décrypter :
Le "*" semble signifier "produit"‚ tandis que le "**" semble signifier "au carré".
Est-ce bien ça ?
Merci d'avance.
C'est bien cela.
Quelques références sont:
"Sampling Techniques", G. Cochran, pag. 30 ('Estimation of a ratio')
"Théorie des sondages", Y. Tillé, pag. 201 ('Estimation par le quotient')
Cordialment,
Augusto
J'ai hâte de voir la démo (je vais essayer tout seul avant).
Pour ton IC tu peux raisonner conditionnellement, c'est-à-dire faire comme si $N_A$ était fixe.
Exactement, c'est une approximation général à partir du développement de Taylor d'ordre.... 1 de la fonction g(z,w)=z/w.
Cordialment,
Auguste
On a :
b/a=(b-E(b)+E(b))/(a-E(a)+E(a))
=(E(b)/E(a)).(1+eb)/(1+ea) //Où ea=(a-E(a))/E(a) et eb=(b-E(b))/E(b)).
=(E(b)/E(a)).(1+eb).(1-ea+ea2+OL(ea3)
=(E(b)/E(a)).(1-ea+ea2+eb-eaeb+OL(max2(ea,eb))
Et ensuite ?
Je t'ai donné une façon de construire un intervalle de confiance exact.
Ma crainte est que si Na << N alors cet intervalle de confiance conditionnellement à a (que pour les estimations numériques on prendrait égal à E(a)) soit une mauvaise approximation du vrai IC de Nb/Na, sachant que dans la réalité, on ne connait à l'avance ni a, ni b.
En effet, si l'échantillon est de quelques centaines ou de quelques milliers, on peut avoir une grosse incertitude sur a (dans le cas où l'on n'a pas a>>1). Cette dernière se traduit alors quantitativement différemment selon que l'on considère a comme fixe ou non.