Estimation d'une fréquence - test peu fiable

Bonjour,
Je dois estimer la fréquence d'une caractéristique dans une population à l'aide d'un test qui a un fort pourcentage d'erreurs.

Mettons par exemple que le pourcentage de faux positif est de 20% et le pourcentage de faux négatif de 20% aussi, est-ce que malgré la faible précision du test, en testant un grand nombre de cas, je peux malgré tout estimer la fréquence ?

Par exemple, s'il s'avère que la fréquence était en fait de 50%, on finirait sur un grand nombre de cas par trouver environ 50% de résultats positifs au test puisque les erreurs se "compenseraient" et on retomberait ainsi sur nos pattes.
En revanche, s'il y a, mettons, 2% de gens qui ont cette caractéristique, le test, sur un très grand nombre de cas, va plutôt être positif dans (20%*98% + 80%*2%) des cas puisqu'il va se tromper 20% du temps dans les deux sens.


Dans le cas général, si je ne dis pas de bêtise, le test va naïvement nous indiquer a = 0.2*(1-x) + 0.8*x malades, soit a = 0.2 + 0.6x malades, donc on peut "corriger" l'erreur du test en considérant une fréquence expérimentale corrigée de (a - 0.2)/0.6 (arrêtez moi si je dis des bêtises).

J'aimerais pouvoir contrôler la fréquence "corrigée" et savoir comment évolue l'écart entre la vraie fréquence et la fréquence expérimentale corrigée en fonction du nombre d'individus testés.

J'aimerais savoir comment s'appelle ce problème (je suppose qu'il y a déjà de la littérature qui traite de ce sujet) et dans l'idéal trouver des ressources documentaires dessus, je n'arrive pas à faire des recherches pertinentes sur les moteurs de recherche car j'ai un vocabulaire très réduit en statistiques, n'ayant jamais étudié cette discipline

Merci d'avance !

Réponses

  • Bonjour,
    Je me permets d'ajouter un message car j'ai re réfléchis au problème, et je me suis aperçu que ma réflexion était généralisable à n labels ; si l'on doit classer chaque individu dans une catégorie parmi n avec parfois des erreurs, on peut représenter les erreurs d'une catégorie réelle vers une catégorie estimée dans une "matrice de confusion" ( https://fr.wikipedia.org/wiki/Matrice_de_confusion )

    Si je ne dis pas de bêtise, je crois qu'on peut alors multiplier le vecteur des fréquences brutes par l'inverse de la matrice de confusion pour obtenir les fréquences ré-ajustées.

    Je ne sais cependant toujours pas comment contrôler l'erreur du vecteur des fréquences réajustées, ayant peu de connaissances en probabilité.
Connectez-vous ou Inscrivez-vous pour répondre.