Expliquer un calcul de probabilités

Bonjour,
Je suis actuellement sur le thème des tests médicaux en enseignement scientifique.
J'ai des élèves qui ont à peine le niveau collège en mathématiques. Et certains n'arrivent pas à faire un calcul de probabilités simple. Je m'explique : on cherche par exemple la probabilité d'être malade sachant que l'on est positif à un test; et certains élèves ne comprennent pas que cette probabilité peut s'estimer par la proportion des malades parmi les personnes positives au test dans un échantillon donné (supposé représentatif de la population totale).
Avez-vous des idées pour expliquer cela simplement ?
Merci.

Réponses

  • Un tableau, avec 2 lignes et 2 colonnes (+ la ligne total et la colonne total)
    Et dans le tableau, des NOMBRES, pas des pourcentages.
    Même si souvent, le grand total donnera 100.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Avec les patates (diagrammes de Venn). Une prob "est une aire".

    PS. et pour les prob conditionnelles on voit bien ce qui se passe.
  • Après, d'expérience, en probas, il y a un côté irrémédiablement dur à la question du conditionnement.

    C'est une notion très subtile qui me semble presque ressortir de la théorie de l'esprit. Qu'est ce que je suppose que je sais ? Qu'est ce que je suppose que j'ignore ? Comment ceci influe sur ma prise de décision ?

    Rajouter là-dessus un vernis de tests médicaux, pourquoi pas, mais ça ne me crève pas les yeux que ce soit le cas le plus naturel.

    Transformer les concepts centraux des probas en questions statistiques (avec des effectifs) pourquoi pas, mais là encore, bien que ce soit une astuce traditionnelle, je ne sais pas si c'est tellement mieux.
  • Lourran, je les fais travailler avec le tableau de contingence. Je ne donne pas de formule sauf pour ceux qui ont suivi l'eds en première.
  • Mon voisin a une pièce Bleue/Rouge.
    Il a deux dés :
    un bleu avec 5 faces $A$ et une face $B$.
    un rouge avec 5 faces $B$ et une face $A$.

    * Il me dit qu'il a décidé de lancer la pièce, puis le dé de la couleur obtenue par la pièce.

    Qu'est ce que je pense du résultat du dé ?

    * Le lendemain, il me dit qu'il a lancé la pièce et qu'elle a donné Bleu. Il va maintenant lancer le dé de la couleur obtenue par la pièce.

    Qu'est ce que je pense aujourd'hui du résultat du dé ?
  • Bonjour Bulledesavon.

    Peut-être commencer par le commencement : Si on teste toute la population, 20 % des testés sont positifs, et 95% des testés positifs sont effectivement malades. Quelle est la proportion des malades ?
    Si un élève n'est pas capable de traiter cette question (pas encore de probabilités) ne serait-ce qu'en inventant un effectif pour la population (par exemple 100 millions, donc 20 millions de positifs, ... ) il aura de fortes difficultés avec les probabilités, quoiqu'on explique.
    Deuxième étape : On prend un individu au hasard. Quelle est la probabilité qu'il soit positif (20 "chances" sur 100) ? Qu'il soit malade ? On prend maintenant un testé positif au hasard; quelle est la probabilité qu'il soit malade ?
    Troisième étape : On prend 500 personnes au hasard dans la population. A combien peut-on s'attendre de positifs au test ? Et là, si un élève te dit : "on a pris au hasard, il pourrait n'y avoir aucun positif", il a tout à fait raison !! Tu es condamné à faire la théorie de l'échantillonnage et de justifier par "plus grande vraisemblance" le fait d'estimer le pourcentage de positifs dans la population par celui trouvé dans l'échantillon.
    Comme quoi, la difficulté que tu signales est un vrai problème épistémologique, et ce que tu dis a été longtemps refusé par les statisticiens (voir "La politique des grands nombres" d'Alain Desrosières), entre autres aux dix-huitième et dix-neuvième siècle.

    C'est un joli thème, la statistique médicale, mais qui demande des connaissances sérieuses sur les bases des probas et des stats.

    Cordialement.
  • Peut-être que l'incompréhension vient aussi du mot "sachant".Le niveau en français s'est tellement effondré que parfois les élèves butent sur une tournure qu'ils ne comprennent pas vraiment.
    Beaucoup d'élèves par exemple sont incapables de distinguer les questions "calculer la probabilité qu'une personne soit positive et malade" et "calculer la probabilité qu'une personne malade soit positive" .
  • Bonjour,
    avant de passer aux tests médicaux, ils ont travaillé avec une urne contenant des carrés rouges et bleus et des triangles rouges et bleus. Et ils ont eu à calculer des probas du type : proba d'avoir tiré un carré sachant que l'objet est rouge etc...
    La grande majorité à su le faire mais dès qu'on sort "des dessins" ils ne savent plus faire, voire ne voient pas la similarité.
  • Tu as fais le tableau associé à l'urne ?

    Sinon, une idée comme ça (je n'ai jamais testé), à voir dans quelle mesure c'est applicable avec tes élèves. Tu leur donnes des rôles, malade/pas malade et positif/négatif. Tu les répartis en deux groupes "physiquement". Tu demandes à ceux du groupe "malade" qui sont positif de lever la main histoire qu'on puisse les compter et tu leur demandes de calculer la probabilité que tu cherches.

    Ensuite tu fais le diagramme de Venn et/ou la tableau et tu généralises.
  • Autant malgré la micro polémique de l’arbre et du produit des probabilités du chemin, chacun sait trouver ces probabilités conditionnelles « directes ».
    Autant avec l’arbre ou le tableau, ce n’est pas simple du tout de convaincre au sujet de ces probabilités conditionnelles « indirectes ».

    J’espère être compris dans mes qualificatifs « directes » et « indirectes ».
  • Oui, tu veux dire : conditionnement "direct" pour traduire une idée de chronologie.

    C'est une notion très naturelle de penser au temps qui passe comme apportant des informations.

    Le conditionnement est alors une mise à jour des probabilités concernant l'avenir.

    L'inversion du conditionnement consiste alors à regarder le présent et à inférer des choses sur les passé, supposé inconnu.
  • La "probabilité de $A$ sachant $B$", notée $P(A|B)$, quand un cadre probabiliste est donné avec une mesure de probabilité $P$, ne signifie pas autre chose que $\frac{P(A\cap B)}{P(B)}$ (pourvu que $P(B)\neq 0$).

    Attention à l'idée qu'on puisse intuiter la valeur de $P(A|B)$ par des considérations naïves sur l'expérience en cours; cette idée est la source de tous les attrape-nigaud usuels des probas (dans lesquels des mathématiciens parfois muni de titres -Phd, diplôme d'ingénieur et j'en passe- se vautrent): Monty-Hall, belle au bois dormant, enveloppe magique, un directeur des ressources humaines espiègle pourrait en inventer beaucoup d'autres pour rouler un candidat dans la farine.

    ############

    Pour les lecteurs connaissant un peu les probas post-lycée (L1-2-3 ? M1?), l'emploi de l'expression "sachant $B$" peut être attribuée au phénomène suivant:

    Soit $(\Omega,\mathcal A,P)$ un espace probabilisé, $(F,\mathcal B)$ un espace mesurable, $(X_n)_{n\in \N}$ une famille de variables aléatoires (i.e. d'applications mesurables de $(\Omega,\mathcal A)$ dans $(F,\mathcal B)$) indépendantes et identiquement distribuées pour $P$.
    Soit $C\in \mathcal B$ tel que $P(X_1\in C)\neq 0$.

    On pose $\tau_0:=0$ et pour tout entier $n$, $\tau_{n+1}:=\inf \{k\geq 1+\tau_n \mid X_{\tau_n} \in C\}$.
    Alors:
    (1) les $(\tau_n)_{n\in \N}$ constituent une famille strictement croissante de temps d'arrêt adaptés à la filtration $\left (\sigma(X_1,...,X_n) \right )_{n\geq 0}$ (l'événement $\tau_p=q$ s'exprime à l'aide des $X_1,..,X_q$ pour tous $p,q$)
    (2) les variables aléatoires $n\mapsto X_{\tau_n}$ sont indépendantes, identiquement distribuées, à valeurs dans $C$ muni de la tribu trace (des éléments de $\mathcal B$ contenus dans $C$) et de loi $D\mapsto \frac{Q(D\cap C)}{Q(C)} = Q(D|C)$ où $Q$ est l'image directe de $P$ par $X_1$ ($_i$ avec $i$ quelconque).

    Qu'est-ce que ça veut dire? Vous avez un phénomène où une suite "aléatoire" $(x_k)_{1\leq k \leq n}$ est issue de l'expérience, la phrase "la probabilité qu'un terme appartienne à $W$ sachant qu'il appartient à $V$" fait juste référence à la proportion de termes de la suite qui sont dans $W$ parmi ceux qui sont déjà dans $V$, après qu'on a fait abstraction des autres. Les résultats ci-dessus disent juste qu'on peut appliquer à cette suite extraite les outils des probas pour les suites de VA iid, pourvu que la suite initiale en soit une. Cela dit vous avez déjà une modélisation probabiliste (i.e. un cadre formel) qui est livré et vous ne faites pas comme si la loi $Q$ se devinait par examen superficiel de l'expérience et de ses symétries "apparentes" (dans Monty Hall ce n'est pas parce que les deux portes sont identiques du point de vue d'un observateur qui prend le jeu en cours de route que vous pouvez décréter que P(gain| telle porte)=1/2).
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • Avec un arbre, je suis d'accord. La lecture n'est pas simple, et dans la vie quotidienne, dans la presse, ce n'est pas quelque chose qu'on voit régulièrement.

    Mais avec un tableau, la lecture est vraiment directe.
    Il faut mettre des grands nombres, pour montrer qu'on manipule des ordres de grandeurs, bien faire sentir que tous les nombres qu'on manipule sont des estimations, des moyennes (des espérances...)

    On a 65 Millions d'individus Donc 65 millions dans la case 'Grand Total'
    10% sont malades, donc 6.5Millions dans telle case, et 58.5 dans la case en dessous.
    95% des malades réagissent positivement au test donc ... ... 0.95*6.5M = 6 175 000
    1% des personnes saines réagissent positivement au test donc ... ... 0.01*58.5M= 585000 ...

    En tout le nombre de personnes qui vont réagir positivement au test est donc d'environ 6175000 + 585000 = 6760000
    Je prends une personne au hasard dans la rue, je fais un test XXXX et elle réagit positivement au test.
    Elle fait donc partie des 6 760 000 personnes en question.
    Quelle est la probablité qu'elle vienne du 1er groupe (6175000/6760000) ou du 2ème (585000/6760000) ?

    Avec un tableau, un tableau vide au départ, et qu'on remplit lentement case par case, pour que l'élève voie d'où on tire chaque chiffre, tout va bien. Et quand on remplit un tableau, on ne commence pas forcément par la case en haut à gauche ...

    Le fait que les gens lisent des tableaux dans la vraie vie aide à la compréhension.
    Le fait qu'ils vont lire des tableaux dans la vraie vie fait qu'il faut qu'ils sachent lire ces tableaux.

    Alors que les arbres...
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Pour ma part je trouve que l'arbre n'aide en rien les élèves pour la distinction entre "inter" et une probabilité conditionnelle lorsque les élèves n'ont pas vu la formule de la probabilité conditionnelle. Je pense qu'il y a seulement illusion de compréhension car les énoncés précisent le plus souvent "compléter cet arbre" ou "on pourra utiliser un arbre" et là l'élève balance un peu les probabilités données dans l'énoncé sans trop savoir ce qu'il fait en réalité et même chose si on demande de faire ou de compléter un tableau. Demandez par exemple à un élève qui n'a pas vu la formule de demander "c'est quoi cette probabilité sur cette branche (correspondant à P(B sachant A) ) et une bonne partie vous répondront "ben c'est P(B)" ou P(A inter B).
  • L’arbre est tout de même très lisible (quand on sait le lire) quand on a deux épreuves.
    Chaque chemin est un scénario. marsup parlait de l’idée de chronologie.

    Mais il a les défauts décrits par lourrran (peu diffusé, peu utilisé...) et le défaut de rendre invisible le « sens indirect ».

    Par contre, bien maîtrisé (construction et règle « on multiplie les branches du chemin »), il permet d’appréhender sainement, je trouve, les expériences à plusieurs épreuves, sans les dessiner, comme le jet de dix fois une pièce, par exemple.
  • Personnellement je pose des questions en termes de valeurs de probabilités en jouant avec cette applet https://www.geogebra.org/m/rrak7jny et en laissant la description de l'univers des 10 issues visible au tableau à tout moment. Rien de plus simple ensuite pour les élèves que de trouver et d'écrire toutes les probabilités conditionnelles (ou non) correspondantes concernant les événements "vert", "bleu", "rond" et "carré". En poussant un peu, on peut même les faire trouver d'eux-même $P_A(B)=\frac{P(A \cap B)}{P(A)}$.
  • Pour ce qui est du problème classique des test diagnostiques, je prend l'exemple d'une maladie qui touche une personne sur un million et dont le test fait 1 % de faux positif. Puisqu'il y a beaucoup plus de faux positifs que de malades, un test positif n'est pas inquiétant.
  • C'était le problème du premier test de dépistage du Sida en 1983 ou 84 : Inutilisable en dehors des communautés où la prévalence n'était pas quasi nulle. Et on continue à faire le dépistage avec deux tests différents pour accroître la spécificité.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.