Probabilité de représentation équilibrée
Bonjour,
Voici mes questions : d'abord un calcul de probabilité, ensuite deux questions sur une possible utilisation statistique du résultat.
A un concours en 2017, il y avait 47 candidats : 11 hommes et 36 femmes (23% d'hommes).
Il y a eu 15 admis : 1 homme et 14 femmes (7% d'hommes).
Je souhaiterais savoir si ce gros changement de représentation des hommes est une anomalie sérieuse, où s'il est raisonnable (ça aurait aussi bien pu être l'inverse, il ne faut tirer de conclusions hâtives).
Ma question : Quelle était la probabilité pour qu'il y ait 1 seul homme admis ? (ou 0 homme, ou 2 hommes, ou moins de 3...)
Si une autre question que celle que j'ai trouvée est plus judicieuse, n'hésitez pas à y répondre.
Je me dis qu'il y a trois fois moins d'hommes admis que ce que j'aurais prévu. J'ai bien conscience que l'échantillon est faible, et qu'à un résultat près, il y aurait 0 homme admis, et que le rapport entre d'une part le rapport hommes/candidats et le rapport hommes/admis, qui est ici de 3 (7% comparé à 23%), serait infini si 1 homme n'avait pas été admis.
Puis-je quand même faire un indicateur de ce chiffre ?
Si au même concours en 2018, on a des différences proches entre hommes admis et résultat attendu, pourrai-je tenir un raisonnement du type : il y avait une chance sur dix pour que ça produise en 2017, une chance sur dix pour que ça se produise en 2018, donc une chance sur cent que ça produise en 2017 et en 2018 ? Ou alors faudra-t-il que j'additionne les chiffres de 2017 et 2018, qu'on refasse le calcul, auquel cas mon taux de surreprésentation féminine pour la période 2017-2018 sera similaire à celui de chacune des deux années indépendamment, simplement conforté par un échantillon plus important ? Les deux façons de penser la chose donneraient des résultats contradictoires, je me l'explique pas.
Voici mes questions : d'abord un calcul de probabilité, ensuite deux questions sur une possible utilisation statistique du résultat.
A un concours en 2017, il y avait 47 candidats : 11 hommes et 36 femmes (23% d'hommes).
Il y a eu 15 admis : 1 homme et 14 femmes (7% d'hommes).
Je souhaiterais savoir si ce gros changement de représentation des hommes est une anomalie sérieuse, où s'il est raisonnable (ça aurait aussi bien pu être l'inverse, il ne faut tirer de conclusions hâtives).
Ma question : Quelle était la probabilité pour qu'il y ait 1 seul homme admis ? (ou 0 homme, ou 2 hommes, ou moins de 3...)
Si une autre question que celle que j'ai trouvée est plus judicieuse, n'hésitez pas à y répondre.
Je me dis qu'il y a trois fois moins d'hommes admis que ce que j'aurais prévu. J'ai bien conscience que l'échantillon est faible, et qu'à un résultat près, il y aurait 0 homme admis, et que le rapport entre d'une part le rapport hommes/candidats et le rapport hommes/admis, qui est ici de 3 (7% comparé à 23%), serait infini si 1 homme n'avait pas été admis.
Puis-je quand même faire un indicateur de ce chiffre ?
Si au même concours en 2018, on a des différences proches entre hommes admis et résultat attendu, pourrai-je tenir un raisonnement du type : il y avait une chance sur dix pour que ça produise en 2017, une chance sur dix pour que ça se produise en 2018, donc une chance sur cent que ça produise en 2017 et en 2018 ? Ou alors faudra-t-il que j'additionne les chiffres de 2017 et 2018, qu'on refasse le calcul, auquel cas mon taux de surreprésentation féminine pour la période 2017-2018 sera similaire à celui de chacune des deux années indépendamment, simplement conforté par un échantillon plus important ? Les deux façons de penser la chose donneraient des résultats contradictoires, je me l'explique pas.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Script scilab
résultat (probabilité qu'il y a au max 0,1,2,3,4,5 hommes admis)
Il y avait 0,7% de chances pour qu'aucun homme ne soit admis.
Il y avait 6,3% de chances pour que "aucun ou un seul homme" soit admis (je pense ne pas me tromper en disant que les chances qu'un unique homme soit admis est la différence entre les deux résultats précédents, soit 5,6%, mais ce sont effectivement les cumuls dont j'avais besoin).
Il y avait 23,2% de chances pour qu'il n'y ait pas plus de deux hommes admis.
Il y avait 50,7% de chances pour qu'il n'y ait pas plus de trois hommes admis ; ce résultat correspond au nombre de 3, que j'attendais au doigt mouillé.
A partir de 4 hommes admis, les probabilités montent très vite, parce que les possibilités deviennent très nombreuses, je le conçois bien.
Merci d'avoir compris que je demandais des chiffres théoriques dans le cas où hommes et femmes auraient la même probabilité d'être admis, ce qui me permet maintenant de les comparer aux résultats réels sachant que les examinateurs connaissaient le sexe du candidat, pour commencer par exemple à envisager une possibilité de discrimination. Savoir s'ils ont où non la même probabilité réelle d'être reçus était justement l'idée que j'avais en tête. Je ne suis pas certain qu'introduire le sens de probabilité réelle soit très pertinent, mais je me comprends, je pense que ça peut s'appeler probabilité corrigée.
Maintenant que ce problème de probabilités est résolu, je pense que je dois aller soumettre mon problème ailleurs, pour parler de statistiques (au sens sondages), d'échantillons, de confiance...
Par contre, je me demande si cette dernière question ne relève pas des probabilités. Si je coupe mon groupe de candidats en deux (concours 2017 et 2018), vous pourrez me répondre pour 2017, pour 2018, et pour le cumul 2017-2018, mais n'y a-t-il pas une nuance à chercher ? Intuitivement, je me dis que tomber sur un cas qui avait 7% de chances de se produire en 2017, puis sur un autre cas qui avait 7% de chances de se produire en 2018, ce n'est pas la même chose que de constater un cas global qui avait 7% de chances de se produire sur les deux années prises ensemble. Est-ce juste un échantillon plus grand (qui ne concernera alors pas les probabilistes) ou peut-on commencer à chercher la probabilité que dans les parties d'un problème coupé en deux on obtienne toujours la même probabilité de résultat ? Peut-être que ce que je suggère n'a aucun sens, j'en serais embêté.
S'il y a deux années à tester, c'est vrai que ça se complique.
J'ai l'impression que vous avez très bien compris en effet : "il y a une nuance à chercher".
D'abord une référence : il s'agit d'une loi hypergéométrique
https://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test
là, avec 6.3% pour les chiffres de 2017 on est déjà au seuil de la signifiance statistique des 5%.
Je pense que si les chiffres de 2018 vont dans le même sens (la proportion d'hommes diminue après la phase d'admission), il y a de fortes chances qu'on passe vite sous les 5%.
Après, quelle statistique de test utiliser pour faire les choses rigoureusement ?
Le plus simple est sans doute de mettre ensemble les échantillons des deux années (faire comme s'il n'y avait qu'une seule session pour 2017-2018).
Est-ce la meilleure ? Je ne sais pas.
S'il y a à peu près :
- le même nombre de candidats de chaque sexe,
- le même nombre total de candidats (conséqence de la première hypothèse)
- le même nombre de places offertes,
je pense que c'est une bonne idée d'additionner tout simplement, sinon ... ?
Le test de l'absence de biais de genre suppose que le genre n'influe pas sur la réussite au concours (seulement sur le comportement du jury). Hypothèse bien plus difficile à tester que la différence des réussites. Mais connue par exemple pour la réussite au bac, ou pour la présence en prépas.
Pour les deux années, on peut globaliser en un seul échantillon, ou bien, s'il y a indépendance entre les deux concours (comment en être sûr), utiliser la proba produit.
Cordialement.
* Je n'ai pas compris l'histoire de test hypergéométrique, et j'ai peu d'espoir de comprendre les concepts en jeu, mais j'ai retenu que je pourrai éventuellement chercher de ce côté.
* Oui, je pense qu'il y a indépendance entre les deux concours. Ils respectent probablement les mêmes critères de sélection, mais deux fois indépendamment l'un de l'autre. C'est ce qui me donne envie, sur deux années, de multiplier les probabilités plutôt que d'additionner les données et reprendre à zéro le calcul de probabilités, mais je n'ai pas l'esprit très clair là-dessus (la répétition de la discrimination est-elle une simple confortation du fait qu'il y ait discrimination grâce à un échantillon plus important, ou alors la succession à l'identique de deux choses improbables rend-elle cette chose "encore plus" improbable ?).
* Il y a 1000 candidats à l'écrit, et 50 admissibles, il est prévisible que sur deux années consécutives, la proportion d'hommes et de femmes sera la même parmi les candidats, et à peu près la même parmi les admissibles (les copies sont anonymes). Si jamais ce n'était pas le cas, j'abandonnerais carrément ma question.
* J'aurai dans un mois les données 2018 pour savoir si la priorité donnée au femmes en 2017 se répète en 2018 (je crois qu'elle existait avant, mais je n'ai pas les chiffres). Je suis certain qu'il y a un choix arbitraire du jury (en 2017, on m'a mis absurdement la note éliminatoire de 5/20 à l'épreuve d'admission, pour m'écarter sans justification). En cherchant la raison, puis en voyant la liste d'admis, j'ai pensé (simple hypothèse) que le sexe des candidats entrait en jeu. Je n'ai pas fait appel en 2017, mais si en 2018 la plupart des hommes sont encore écartés, je prépare un argument statistique pour le faire, la discrimination selon le sexe étant illégale.
Cordialement.