Adéquation loi équirépartie [Terminale]

Bonjour,

Je suis prof en TES et est une certaine incompatibilité avec les stats.

J'ai un problème pour rédiger le corrigé de l'exercice 2, question 4. (document joint)
C'est donc le problème de l'adéquation à une loi équirépartie.
On trouve 500d²obs = 3,481
D9 appartient à [2,5 ; 3[

La question est :
En argumentant soigneusement la réponse, dire si pour la série observée au
début, on peut affirmer avec un risque inférieur à 10 % que « la prairie est
composée d’autant de fleurs de chaque variété ».

Moi, je réponds tout de go "OUI" et même avec un risque de 0%.
Ce qui me gêne c'est le inférieur, avec égal, je dis qu'on rejette la propostion : « la prairie est
composée d’autant de fleurs de chaque variété » avec un risque d'erreur de 10%.
Mais avec inférieur, je ne sais pas répondre.

Merci

TV

Réponses

  • "Moi, je réponds tout de go "OUI" et même avec un risque de 0%. "

    Comment peux-tu affirmer cela : tu n'as les résultats que pour 500 fleurs ceuillies. Si ça se trouve, les 500 fleurs de l'échantillon résultent d'un coup de bol monumental : le champ est composé de 2000000 marguerites, 200 primevères, et 185 violettes (auquel cas ce n'est pas du tout équiréparti) et on a cueilli 179 violettes sur les 185, 133 primevères sur les 200 et 188 marguerites sur les 2000000.
    Donc le risque 0 n'existe pas (sauf si on a cueilli toutes les fleurs du champ).

    "Ce qui me gêne c'est le inférieur, avec égal, je dis qu'on rejette la propostion : « la prairie est
    composée d’autant de fleurs de chaque variété » avec un risque d'erreur de 10%.
    Mais avec inférieur, je ne sais pas répondre. "

    Effectivement, c'est un peu mal posé, mais ce qu'on peut dire, c'est que le D9 est strictement inférieur au 500d²obs trouvé, donc le risque d'erreur est inférieur à 10%.

    Remarque : En fait, c'est même beaucoup plus vicieux que ça, puis que le pépiniériste compare avec une simulation informatique. Donc tout ce qu'on peut dire, c'est que la cueillette est en accord avec une simulation informatique (qui est, comme chacun sait, loin d'être réellement aléatoire en général). Mais ceci est juste une remarque de quelqu'un de blasé par le fait que, dans les programmes officiels, l'ordinateur a toujours raison...
  • Bonjour Guego,

    J'ai écrit : "Moi, je réponds tout de go "OUI" et même avec un risque de 0%. "

    Tu me réponds : "
    Comment peux-tu affirmer cela : tu n'as les résultats que pour 500 fleurs ceuillies. Si ça se trouve, les 500 fleurs de l'échantillon résultent d'un coup de bol monumental : le champ est composé de 2000000 marguerites, 200 primevères, et 185 violettes (auquel cas ce n'est pas du tout équiréparti) et on a cueilli 179 violettes sur les 185, 133 primevères sur les 200 et 188 marguerites sur les 2000000.
    Donc le risque 0 n'existe pas (sauf si on a cueilli toutes les fleurs du champ). "

    "Se fixer un seuil à t% c'est prendre le risque de rejeter à tort l'hypothèse d'équiprobabilité dans t% des cas les plus rare " dixit http://yallouz.arie.free.fr/terminale_cours/testadequation.php

    Donc sans faire aucun calcul, prendre un risque de 0% c'est être sûr de ne pas rejeter à tort l'hypothèse d'une loi équirépartie. Si j'accepte l'hypothèse je suis sûr de ne pas la rejeter à tort !!!

    Donc la question du sujet de Bac me paraît dépourvue de sens.


    Mon problème est toujours la rédaction du corrigé pour les élèves.

    Ce qui me paraît aberrant dans ce truc, est que plus 500d²obs trouvé est petit, plus la probabilité que la loi soit équirépartie est grande.
    Plus 500d²obs trouvé est grand plus le risque est petit.
    Conclusion, plus la probabilité est grande plus le risque est grand.

    Je ne m'y retrouve pas. Il me semble que cette notion de risque n'a pas vraiment de sens, du moins je ne comprends pas cette notion. A mon sens, le risque ne renseigne pas sur la probababilité que la loi soit équirépartie.

    Je suis paumé.

    TV
  • Ici on rejette l'équirépartition car le 500d² est trop grand. On commet peut-être une erreur.
    Si vous acceptez l'hypothèse d'équirépartition, vous pouvez commettre une autre erreur (accepter l'hypothèse alors qu'elle est fausse)
    C'est comme dans un tribunal, il y a deux types d'erreurs possibles; condamner un innocent ou relaxer un coupable.
  • Bonjour TV.
    plus la probabilité est grande plus le risque est grand.
    Pourquoi cela te gène-t-il ? Le risque est généralement modélisé par une probabilité. Par exemple, le risque d'avoir un accident mortel de la circulation dans l'année pour un français pris au hasard est d'environ 4000/63000000 = 1/15750. Et c'est bien le calcul d'une probabilité par estimation.
    A mon sens, le risque ne renseigne pas sur la probabilité que la loi soit équirépartie
    Oui, c'est tout à fait ça. On ne peut d'ailleurs généralement pas calculer " la probabilité que la loi soit équirépartie". C'est un peu ce que suggère Guégo : Avec un échantillon, fini la certitude. Mais on peut essayer de donner des "certitudes raisonnables", en particulier, lorsque le test échoue, on peut raisonnablement rejeter l'hypothèse. Par contre, si le test réussit, la seule chose saine est de dire qu'on ne peut pas rejeter l'hypothèse. Elle n'est pas confirmée pour autant, et même parfois pas plus probable qu'avant.
    De la même façon, l'hypothèse " le jour se lève tous les matins" m'a été confirmée encore une fois ce matin. Et pourtant, elle est fausse en ce moment en antarctique !

    Cordialement.

    NB : La formulation "avec un risque de t %" est une abréviation dangereuse de "avec un risque de t% de rejeter l'hypothèse alors même qu'elle serait vraie". Remarque la double condition.
  • Merci pour toutes ces précision. J'ai bien compris cette notion de risque.

    Mais revenons à mon problème.

    Comment doit répondre un élève à cette question le jour du Bac (bac posé le 4 juin 2009 en Amérique du Nord) :

    On trouve 500d²obs = 3,481
    D9 appartient à [2,5 ; 3[

    La question est :
    En argumentant soigneusement la réponse, dire si pour la série observée au
    début, on peut affirmer avec un risque inférieur à 10 % que « la prairie est
    composée d’autant de fleurs de chaque variété ».

    Voilà ma réponse :
    500d²obs = 3,481 > D9 donc on rejette l'hypothèse avec un risque inférieur à 10% de se tromper.

    Si je comprends bien, la notion de risque n'est valable que si l'on rejette l'hypothèse. Pouvez-vous me confirmer ?
    Mais dans ce cas la question n'a pas de sens.

    C'était quand même mieux quand on faisait des mathématiques en cours de maths.
  • Bonsoir TV.

    Tu as raison de critiquer la formulation :
    En argumentant soigneusement la réponse, dire si pour la série observée au
    début, on peut affirmer avec un risque inférieur à 10 % que « la prairie est
    composée d’autant de fleurs de chaque variété ».
    Aucun statisticien sérieux n'écrira cela, mais on trouve classiquement :
    En argumentant soigneusement la réponse, dire si pour la série observée au
    début, on peut affirmer au risque 10 % que « la prairie est
    composée d’autant de fleurs de chaque variété ».
    Cette formulation signifiant qu'on fait un test avec comme seuil de risque 10%.
    TV a écrit:
    Si je comprends bien, la notion de risque n'est valable que si l'on rejette l'hypothèse
    Non, la notion de risque est constitutive de la notion de test d'hypothèse, quelle que soit la réponse. Et comme il n'est pas possible de faire une séparation canonique entre les cas (statistiques) qui sont en faveur de l'hypothèse, et ceux qui la contredisent, il faut bien faire une séparation statistique, probabiliste, plus exactement. C'est le rôle du seuil de risque.
    TV a écrit:
    C'était quand même mieux quand on faisait des mathématiques en cours de maths.
    Parce que ce que tu fais-là, c'est pas des maths ? Allons, ce n'est pas parce que tu n'as pas été formé aux statistiques (tout comme moi) qu'il faut considérer que ce ne sont pas des maths. Quant à ce que tu as enseigné avant, pour de nombreux universitaires "ce n'est pas des maths". Et pour Dieudonné (celui de Bourbaki), avant 1900, "ce n'est pas des maths".

    Allez, je te joins un cours de stats sur les tests d'hypothèse (fait pour des étudiants peu matheux, il présente essentiellement les enjeux).

    Cordialement
  • Salut Gérard,

    Je persiste et signe, les statistiques ne sont pas des mathématiques. Peut-être des maths appliqués. Les probabilités sont des maths.

    Parmi ce que j'enseigne et ai enseigné il y a des maths et autre. Mais les mathématiques et surtout la cohérence et la réflexion disparaissent de plus en plus des programmes.
    Changement de définition d'une limite en 86 ou 7
    et de la continuité. Maintenant, l'existence d'une limite dépend de l'intervalle ou union d'intervalles choisis, aberrant.
    Le mot déterminant interdit en seconde, on s'en sert tous les jours, et en TES où on inverse des matrices !!!!

    Introduction des statistiques, des graphes, de lectures de courbes de niveau pour surtout ne pas réfléchir.

    Juste quelques exemples.

    Au fait, sur ce site : "La statistique est la première science inexacte" les Goncourts.
  • Merci Gérard pour ce document synthétisant, très clairement et avec simplicité, la problèmatique des tests. Je le garde pour moi sous le coude.

    Quant à TV, qui pense que les statistiques ne sont pas des maths, qu'il aille donc feuilleter le célèbre bouquin de Gilbert Saporta...

    Bien cordialement,

    Christian
  • Hola, TV !

    Se référer aux Goncourt comme autorité pour les mathématiques, c'est du grand guignol. Dans ce cadre, je préfère Churchill : "Il y a trois sortes de mensonges : Le pieux mensonge, le fieffé (damned) mensonge et les statistiques".

    "Les probabilités sont des maths". Non. Pas les probabilités, seulement le calcul interne des probas, qui est tout simplement un chapitre particulier de la théorie de la mesure. Regarde bien tes programmes de probabilités, on y parle de dés, de cartes, d'urnes, ... tous objets non mathématiques.
    Et le développement récent des probabilités a comme moteur principal leur utilisation comme modèles statistiques (Lis un peu le cours d'Olivier Baugé pour voir).
    Par contre, la statistique, dès qu'on s'attache à un problème concret, comme le tien, nécessite une vraie compréhension de ce qu'on veut faire. Or on peut faire des maths de façon très formelle (Pour avoir enseigné les espaces vectoriels en seconde, j'ai une excellente expérience sur ce sujet), "façon Bourbaki", et être nul dans les applications des maths. Je le vois encore tous les jours chez certains de mes étudiants. Quel est notre rôle : Fabriquer des perroquets ? Ou former des hommes et des femmes dotés d'outils intellectuels ?

    Cordialement
  • Quelle est la relation entre l'adéquation à une loi équirépartie que l'on fait en terminale S avec le test du Chi2 ?
  • Dans le test du khi-deux, on aurait comparé les effectifs observés O(i): 179, 133, 188 avec les effectifs théoriques C(i): 500*1/3=166,67
    On calcule Q= (179-166.67)²/166.67+(133-166.67)²/166.67 + (188-166.67)²/166.67=10,444=3*3,481
    Le Q traditionnel est donc 3*500d²obs (facile à vérifier de manière générale)
    Si l'équirépartition est vraie, Q suit approximativement une loi du khi-deux à 3-1=2 degrés de liberté.
    Pour cette loi P(Q>4,605)=0,1
    On rejette donc l'équirépartition au niveau 0,1 si Q>4,605, soit 500d²>1,535. La méthode du D9 (par simulation) donne une valeur entre 2,5 et 3 pour le rejet.
  • Bonjour,
    Dans cet exercice, les effectifs de la variable de décision obtenus par simulation me semblent incohérents.
    Quand je réalise une simulation sur tableur je trouve des valeurs de cet ordre
    1042 ; 482 ; 257; 114 ; 53 ; 32 ; 12 ; 4 ; 2 ; 2
    Avec à chaque série de 2000 simulations un D9 compris dans l’intervalle [1,5 ; 2[
    Est-ce que je me trompe ?

    Cordialement
  • ...ce qui correspond au D9 théorique 1,535.
  • Bonjour, je suis actuellement en plein dans mes révisions pour le bac s !
    depuis un certain temps je me pose toujours la meme question, comment fait on pour calculer D9 lorsque celui ci n'est pas donné dans un exercice? (en particulier avec un diagramme ou un tableau car cela ne pose pas de problème avec une boite à moustache)
    merci à vous
  • Bonjour.

    D9 est une valeur telle que 90% des individus ont une valeur inférieure (ou égale) et 10% ont une valeur supérieure (ou égale). Il suffit d'appliquer cette définition à la situation.

    Cordialement.
  • oui merci gerard0, je connais déjà cette définition mais je n'arrive pas à l'appliquer à toutes les situations, si l'on s'en tient à la définition il suffit juste de poser le calcul suivant :
    0.9 * effectif total or le résultat n'est jamais en accord avec les corrigés lorsque l'on répète l'expérience un grand nombre de fois.
    Merci de votre aide
  • si l'on s'en tient à la définition il suffit juste de poser le calcul suivant :
    0.9 * effectif total
    Ah bon ? C'est comme ça que tu lis la définition ? Donc contrairement à ce que tu dis, tu ne la connais pas (tu n'en comprends pas les mots). Ce que tu calcules, c'est 90% de l'effectif; pas D9.
    Donc relis la définition, puis dis moi quels mots tu ne comprends pas. Ou, si tu as compris, applique la définition au cas suivant : On a obtenu comme résultats tous les entiers entre 1 et 20, chacun 2 fois. Combien vaut D9 ?

    Cordialement.
  • De toute évidence je ne comprend pas pour moi dans cet exemple la D9 aurait été 36 ..
  • Oui, mais ce n'est pas 36

    Ici les valeurs sont les nombres de 1 à 20. Donc D9 ne peut pas être 36.
    Donc il faut que tu lises enfin cette définition, au lieu d'avoir une idée préconçue fausse. je ne peux pas changer ce qu'il y a dans ta tête; toi seul le peux.
  • Je veux bien le croire mais malheureusement je n'arrive pas à intégrer la notion .. Pourriez vous s'il vous plait m'expliquer la chose avec des mots peut être plus faciles afin de mieux comprendre ? (avec un exercice corrigé peut être)

    Merci encore une fois pour votre patience !
  • Ben ...

    c'est du français. Il y a bien "90% des individus", mais la définition ne dit pas que D9 est "90% des individus". Donc il faut que tu décodes la phrase. "D9 est ..." et que tu lises ce qu'est D9.
    Encore une fois, inutile de te retrancher derrière le traditionnel "je ne comprends pas" de celui qui ne pense pas; avec d'autres mots ce n'est pas utile, puisque tu ne dis pas quels mots seraient à changer (je t'ai proposé de traduire les mots que tu ne comprends pas, tu n'as rien demandé !). Un exemple ne dira rien puisque tu n'as pas lu la définition. Je peux te montrer un exemple de chalienien, mais comme tu n'as jamais su ce qu'est un chalienien, tu ne seras pas plus avancé, puisque tu ne sauras pas ce que je montre. et pourtant je tendais le doigt vers toi !
    Donc bouge-toi les neurones !
  • Bon et bien on va réessayer !
    Si 90 % des individus sont inférieurs a D9 et 10% supérieur cela signifie que sur 20 individus D9 correspond au pourcentage tel que 90% des individus soient inférieurs a D9, ca je pense avoir compris, enfin je l'espere sinon je me fais peur enfin et c'est la que ca bloque, je ne sais pas comment faire pour retrouver D9 ! C'est assez précis ? Ou il faut que je cible encore plus ?
  • Encore une fois, c'est ta difficulté à manipuler correctement le français qui te joue des tours :

    "Si 90 % des individus sont inférieurs a D9" ??? Bizarre; ça veut dire quoi "Show Moon est inférieur à D9" ? On est en démocratie, tu n'es inférieur à personne et encore moins à D9.
    "D9 correspond au pourcentage.." Et voilà, c'est reparti pour un tour.
    Plutôt que de baratiner autour des mots de la définition, commence par savoir quel type de chose est D9. C'est écrit dans la définition, tu n'as qu'à lire ....
    Je te redonne les valeurs, dans l'exemple :
    1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20.

    Et une définition : D9 est une valeur telle que 90% des individus ont une valeur inférieure ou égale et 10% des individus ont une valeur supérieure ou égale. Donc 90% des valeurs sont inférieures ou égales à D9 et 10% des valeurs sont supérieures ou égales.

    Et quand tu auras vu la difficulté de l'exemple, tu pourras prendre un plus simple : On enlève le premier 1, ce qui donne :
    1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20.

    Bon travail !
  • D9 = 18
    sinon j'abandonne

    merci
  • Voila ! Enfin presque !

    La difficulté du premier exemple est que les premier 90% vont jusqu'à 18 et que les derniers 10% commencent à 19. Donc 18, ou 19, ou tout nombre entre 18 et 19 (s'il a un sens) conviennent. Les logiciels prennent généralement 18,5.
    Dans le deuxième exemple, D9 = 19, car 80% de 39 valeurs ça fait 35,1, donc la trente-cinquième valeur (le deuxième 18) ne convient pas (jusqu'à elle comprise, il y a moins de 90% des valeurs); la trente-sixième (le premier 19) convient car il y a 35,1 valeurs avant (dont 0,1 pris sur lui-même) et après il y en a 3,9 (dont 0,9 pris sur le 19).

    En pratique, les statisticiens font autrement : D9 est la plus petite valeur pour laquelle on obtient un effectif cumulé croissant correspondant à au moins 90% de l'effectif total (L'effectif cumulé croissant est le nombre total des individus qui sont de valeurs inférieures ou égales à celle considérée; par exemple, pour 7 dans le deuxième exemple, l'effectif cumulé croissant est 13 (nombre de valeurs de 1 2 2 3 3 4 4 5 5 6 6 7 7).

    Cordialement.
  • Merci à vous
Connectez-vous ou Inscrivez-vous pour répondre.