Pensez à lire la Charte avant de poster !

$\newcommand{\K}{\mathbf K}$


Les-Mathematiques.net - Cours de mathématiques supérieures
 Les-Mathematiques.net - Cours de mathématiques universitaires - Forum - Cours à télécharger

A lire
Deug/Prépa
Licence
Agrégation
A télécharger
Télécharger
179 personne(s) sur le site en ce moment
E. Cartan
A lire
Articles
Math/Infos
Récréation
A télécharger
Télécharger
Théorème de Cantor-Bernstein
Théo. Sylow
Théo. Ascoli
Théo. Baire
Loi forte grd nbre
Nains magiques
 
 
 
 
 

Incertitudes dans un sous-échantillon...

Envoyé par SXB 
SXB
Incertitudes dans un sous-échantillon...
il y a six années
Bonjour

Petite question pratique : supposons que l'on considère une population de taille N>>>1, dont une partie OA de cardinal NA vérifie une propriété A et une partie OB de OA, de cardinal NB, vérifie une propriété B.

On tire un échantillon de taille n, dont a vérifient A et b vérifient B.

On cherche à évaluer NB/NA. L'estimateur le plus naturel est b/a.

On cherche ensuite à évaluer l'erreur (ou encore l'erreur relative), au sens d'un intervalle de confiance à 95% de NB/NA :

Et je pense que c'est là que le bât blesse :

Certains diront que l'erreur relative s'évalue ainsi : en se plaçant dans le "sous-échantillon" des K=a individus vérifiant A, et on utilise la célèbre formule :

1.96*RACINE(p(1-p)/K)

Où p=a/b.

C'est à dire, somme toute :

1.96*RACINE(b(1-b/a))/a

Qu'en pensez vous ?

Merci d'avance.



Edité 1 fois. La dernière correction date de il y a six années et a été effectuée par SXB.
Re: Incertitudes dans un sous-échantillon...
il y a six années
Bonjour.

Si NA+NB n'est pas égal à N, cette méthode est incorrecte. L'évaluation par b/a est je le pense la bonne si NA et NB sont du même ordre de grandeur, mais la suite ne concerne que le cas NA+NB=N. Et encore, sous certaines réserves.

De plus je ne comprends pas ta formule 1.96*RACINE(p(1-p)/K) avec un K dont tu n'as jamais parlé; ni la fin.

Cordialement.
SXB
Re: Incertitudes dans un sous-échantillon...
il y a six années
Le K était juste utilisé pour dire que l'on fait comme si l'on avait un échantillon à part entière (qui serait de taille K) avec la partie de l'échantillon qui vérifient la propriété A.

Et on n'a pas NB+NA=N car les individus vérifiant B vérifient A (ce sont une partie de ces derniers).

En gros ce que je demande, c'est "est-ce que l'on peut raisonner avec une partie d'un échantillon comme on raisonnerait avec un échantillon tout entier quand on évalue des incertitudes" ?

Par exemple, si je voulais évaluer l'incertitude planant sur NA/N, il serait correct d'utiliser :

1.96*racine((a/n)(1-a/n)/n)

Mais est-ce qu'il est correct d'évaluer l'incertitude planant sur NB/NA par :

1.96*racine((b/a)(1-b/a)/a) ???

Merci d'avance.



Edité 1 fois. La dernière correction date de il y a six années et a été effectuée par SXB.
Re: Incertitudes dans un sous-échantillon...
il y a six années
A priori,

on peut estimer NB/NA par b/a, mais je ne vois pas pourquoi l'incertitude (l'intervalle de confiance) serait donné par ce que tu proposes. l'ensemble des A n'est pas un échantillon pris au hasard. C'est déjà une règle approximative pour NA/N, mais justifiable. Dans ton cas, je n'ai pas de justification. Je pense même que c'est une valeur plutôt faible, car a est variable.

Cordialement.

NB : Les B sont des A est un renseignement qui manquait dans ton premir message.
SXB
Re: Incertitudes dans un sous-échantillon...
il y a six années
Merci : vous me confirmez donc que cette formule n'est pas transposable aux sous-échantillons !
Ce n'est pas moi qui m'a propose mais des collègues qui l'utilisent.
Du coup quel estimateur des bornes de l'IC (asymptotique) de NB/NA peut-on pendre ?

Merci d'avance.

PS : j'avais bien dit implicitement que tous les B sont des A (en introduisant OB en tant que partie de OA) mais j'avoue que ce n'est pas forcément très clair. :)



Edité 1 fois. La dernière correction date de il y a six années et a été effectuée par SXB.
Bonsoir, une approximation de la variance de l'estimateur b/a est

(si r=b/a)

(1/r**2) * ( Var(a) + r**2 * Var(b) -2*r*Cov(a,b) )


C'est un résultat classique de la théorie des sondages.

Cordialment,
Auguste
SXB
Re: Incertitudes dans un sous-échantillon...
il y a six années
Bonjour.

Merci pour cette formule.

J'essaie de la décrypter :
Le "*" semble signifier "produit"‚ tandis que le "**" semble signifier "au carré".

Est-ce bien ça ?

Merci d'avance.



Edité 1 fois. La dernière correction date de il y a six années et a été effectuée par SXB.
Bonjour.

C'est bien cela.
Quelques références sont:

"Sampling Techniques", G. Cochran, pag. 30 ('Estimation of a ratio')
"Théorie des sondages", Y. Tillé, pag. 201 ('Estimation par le quotient')

Cordialment,
Augusto
SXB
Re: Incertitudes dans un sous-échantillon...
il y a six années
Merci beaucoup.

J'ai hâte de voir la démo (je vais essayer tout seul avant).



Edité 1 fois. La dernière correction date de il y a six années et a été effectuée par AD.
Re: Incertitudes dans un sous-échantillon...
il y a six années
avatar
Je crois qu'Auguste parle d'une approximation générale sur la variance du rapport de deux estimateurs, et quand c'est trop général c'est trop approximatif.

Pour ton IC tu peux raisonner conditionnellement, c'est-à-dire faire comme si $N_A$ était fixe.
Bonsoir Steve:

Exactement, c'est une approximation général à partir du développement de Taylor d'ordre.... 1 de la fonction g(z,w)=z/w.

Cordialment,
Auguste
SXB
Re: Incertitudes dans un sous-échantillon...
il y a six années
J'aurais dû penser à faire ce développement (je vais essayer de le faire à l'ordre 2) :

On a :

b/a=(b-E(b)+E(b))/(a-E(a)+E(a))

=(E(b)/E(a)).(1+eb)/(1+ea) //Où ea=(a-E(a))/E(a) et eb=(b-E(b))/E(b)).

=(E(b)/E(a)).(1+eb).(1-ea+ea2+OL(ea3)

=(E(b)/E(a)).(1-ea+ea2+eb-eaeb+OL(max2(ea,eb))

Et ensuite ?



Edité 21 fois. La dernière correction date de il y a six années et a été effectuée par SXB.
Re: Incertitudes dans un sous-échantillon...
il y a six années
avatar
Qu'est-ce que tu veux faire avec ça ? Après il faudra encore que tu estimes Var(a), Var(b), et Cov(a,b), tout ça est beaucoup trop approximatif.

Je t'ai donné une façon de construire un intervalle de confiance exact.
SXB
Re: Incertitudes dans un sous-échantillon...
il y a six années
Disons que considérer a comme fixe (raisonner comme conditionnellement à a) permet d'avoir un intervalle de confiance ... conditionnellement à a. Or, moi je souhaiterais avoir un vrai intervalle de confiance (de Nb/Na).

Ma crainte est que si Na << N alors cet intervalle de confiance conditionnellement à a (que pour les estimations numériques on prendrait égal à E(a)) soit une mauvaise approximation du vrai IC de Nb/Na, sachant que dans la réalité, on ne connait à l'avance ni a, ni b.

En effet, si l'échantillon est de quelques centaines ou de quelques milliers, on peut avoir une grosse incertitude sur a (dans le cas où l'on n'a pas a>>1). Cette dernière se traduit alors quantitativement différemment selon que l'on considère a comme fixe ou non.



Edité 9 fois. La derni&egrave;re correction date de il y a six ann&eacute;es et a &eacute;t&eacute; effectu&eacute;e par SXB.
Re: Incertitudes dans un sous-échantillon...
il y a six années
avatar
Un intervalle de confiance conditionnel à 95% est aussi un intervalle de confiance inconditionnel à 95% (la réciproque est fausse).
Seuls les utilisateurs enregistrés peuvent poster des messages dans ce forum.

Cliquer ici pour vous connecter

Liste des forums - Statistiques du forum

Total
Discussions: 137 378, Messages: 1 329 960, Utilisateurs: 24 418.
Notre dernier utilisateur inscrit Edouardo01.


Ce forum
Discussions: 3 634, Messages: 21 654.

 

 
©Emmanuel Vieillard Baron 01-01-2001
Adresse Mail:

Inscription
Désinscription

Actuellement 16057 abonnés
Qu'est-ce que c'est ?
Taper le mot à rechercher

Mode d'emploi
En vrac

Faites connaître Les-Mathematiques.net à un ami
Curiosités
Participer
Latex et autres....
Collaborateurs
Forum

Nous contacter

Le vote Linux

WWW IMS
Cut the knot
Mac Tutor History...
Number, constant,...
Plouffe's inverter
The Prime page