Incertitudes dans un sous-échantillon...
dans Statistiques
Bonjour
Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie OA de cardinal NA vérifie une propriété A et une partie OB de OA, de cardinal NB, vérifie une propriété B.
On tire un échantillon de taille n, dont a vérifient A et b vérifient B.
On cherche à évaluer NB/NA. L'estimateur le plus naturel est b/a.
On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de NB/NA :
Et je pense que c'est là que le bât blesse :
Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :
1.96*RACINE(p(1-p)/K)
Où p=a/b.
C'est à dire, somme toute :
1.96*RACINE(b(1-b/a))/a
Qu'en pensez vous ?
Merci d'avance.
Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie OA de cardinal NA vérifie une propriété A et une partie OB de OA, de cardinal NB, vérifie une propriété B.
On tire un échantillon de taille n, dont a vérifient A et b vérifient B.
On cherche à évaluer NB/NA. L'estimateur le plus naturel est b/a.
On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de NB/NA :
Et je pense que c'est là que le bât blesse :
Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :
1.96*RACINE(p(1-p)/K)
Où p=a/b.
C'est à dire, somme toute :
1.96*RACINE(b(1-b/a))/a
Qu'en pensez vous ?
Merci d'avance.
Réponses
-
Bonjour.
Si NA+NB n'est pas égal à N, cette méthode est incorrecte. L'évaluation par b/a est je le pense la bonne si NA et NB sont du même ordre de grandeur, mais la suite ne concerne que le cas NA+NB=N. Et encore, sous certaines réserves.
De plus je ne comprends pas ta formule 1.96*RACINE(p(1-p)/K) avec un K dont tu n'as jamais parlé; ni la fin.
Cordialement. -
Le K était juste utilisé pour dire que l'on fait comme si l'on avait un échantillon à part entière (qui serait de taille K) avec la partie de l'échantillon qui vérifient la propriété A.
Et on n'a pas NB+NA=N car les individus vérifiant B vérifient A (ce sont une partie de ces derniers).
En gros ce que je demande, c'est "est-ce que l'on peut raisonner avec une partie d'un échantillon comme on raisonnerait avec un échantillon tout entier quand on évalue des incertitudes" ?
Par exemple, si je voulais évaluer l'incertitude planant sur NA/N, il serait correct d'utiliser :
1.96*racine((a/n)(1-a/n)/n)
Mais est-ce qu'il est correct d'évaluer l'incertitude planant sur NB/NA par :
1.96*racine((b/a)(1-b/a)/a) ???
Merci d'avance. -
A priori,
on peut estimer NB/NA par b/a, mais je ne vois pas pourquoi l'incertitude (l'intervalle de confiance) serait donné par ce que tu proposes. l'ensemble des A n'est pas un échantillon pris au hasard. C'est déjà une règle approximative pour NA/N, mais justifiable. Dans ton cas, je n'ai pas de justification. Je pense même que c'est une valeur plutôt faible, car a est variable.
Cordialement.
NB : Les B sont des A est un renseignement qui manquait dans ton premir message. -
Merci : vous me confirmez donc que cette formule n'est pas transposable aux sous-échantillons !
Ce n'est pas moi qui m'a propose mais des collègues qui l'utilisent.
Du coup quel estimateur des bornes de l'IC (asymptotique) de NB/NA peut-on pendre ?
Merci d'avance.
PS : j'avais bien dit implicitement que tous les B sont des A (en introduisant OB en tant que partie de OA) mais j'avoue que ce n'est pas forcément très clair. -
Bonsoir, une approximation de la variance de l'estimateur b/a est
(si r=b/a)
(1/r**2) * ( Var(a) + r**2 * Var(b) -2*r*Cov(a,b) )
C'est un résultat classique de la théorie des sondages.
Cordialment,
Auguste -
Bonjour.
Merci pour cette formule.
J'essaie de la décrypter :
Le "*" semble signifier "produit"‚ tandis que le "**" semble signifier "au carré".
Est-ce bien ça ?
Merci d'avance. -
Bonjour.
C'est bien cela.
Quelques références sont:
"Sampling Techniques", G. Cochran, pag. 30 ('Estimation of a ratio')
"Théorie des sondages", Y. Tillé, pag. 201 ('Estimation par le quotient')
Cordialment,
Augusto -
Merci beaucoup.
J'ai hâte de voir la démo (je vais essayer tout seul avant). -
Je crois qu'Auguste parle d'une approximation générale sur la variance du rapport de deux estimateurs, et quand c'est trop général c'est trop approximatif.
Pour ton IC tu peux raisonner conditionnellement, c'est-à-dire faire comme si $N_A$ était fixe. -
Bonsoir Steve:
Exactement, c'est une approximation général à partir du développement de Taylor d'ordre.... 1 de la fonction g(z,w)=z/w.
Cordialment,
Auguste -
J'aurais dû penser à faire ce développement (je vais essayer de le faire à l'ordre 2) :
On a :
b/a=(b-E(b)+E(b))/(a-E(a)+E(a))
=(E(b)/E(a)).(1+eb)/(1+ea) //Où ea=(a-E(a))/E(a) et eb=(b-E(b))/E(b)).
=(E(b)/E(a)).(1+eb).(1-ea+ea2+OL(ea3)
=(E(b)/E(a)).(1-ea+ea2+eb-eaeb+OL(max2(ea,eb))
Et ensuite ? -
Qu'est-ce que tu veux faire avec ça ? Après il faudra encore que tu estimes Var(a), Var(b), et Cov(a,b), tout ça est beaucoup trop approximatif.
Je t'ai donné une façon de construire un intervalle de confiance exact. -
Disons que considérer a comme fixe (raisonner comme conditionnellement à a) permet d'avoir un intervalle de confiance ... conditionnellement à a. Or, moi je souhaiterais avoir un vrai intervalle de confiance (de Nb/Na).
Ma crainte est que si Na << N alors cet intervalle de confiance conditionnellement à a (que pour les estimations numériques on prendrait égal à E(a)) soit une mauvaise approximation du vrai IC de Nb/Na, sachant que dans la réalité, on ne connait à l'avance ni a, ni b.
En effet, si l'échantillon est de quelques centaines ou de quelques milliers, on peut avoir une grosse incertitude sur a (dans le cas où l'on n'a pas a>>1). Cette dernière se traduit alors quantitativement différemment selon que l'on considère a comme fixe ou non. -
Un intervalle de confiance conditionnel à 95% est aussi un intervalle de confiance inconditionnel à 95% (la réciproque est fausse).
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 163.1K Toutes les catégories
- 7 Collège/Lycée
- 21.9K Algèbre
- 37.1K Analyse
- 6.2K Arithmétique
- 52 Catégories et structures
- 1K Combinatoire et Graphes
- 11 Sciences des données
- 5K Concours et Examens
- 11 CultureMath
- 47 Enseignement à distance
- 2.9K Fondements et Logique
- 10.3K Géométrie
- 62 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 68 Informatique théorique
- 3.8K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 312 Mathématiques et Physique
- 4.9K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10K Probabilités, théorie de la mesure
- 772 Shtam
- 4.2K Statistiques
- 3.7K Topologie
- 1.4K Vie du Forum et de ses membres