Intervalle $[m-2\sigma;m+2\sigma]$ (Seconde)

Bonjour à tous
Voici un extrait du programme de Seconde.
Pour des données réelles ou issues d’une simulation, lire et comprendre une fonction écrite en Python renvoyant la moyenne $m$, l’écart type $s$, et la proportion d’éléments appartenant à $[m - 2s,m + 2s]$.

Quel est intérêt de cela ? Je veux bien le faire programmer aux élèves, mais si c'est pour n'en tirer aucune conclusion... et je n'en vois aucune, à part dans le cas où le phénomène suit une loi normale, auquel cas l'intervalle a une probabilité d'un peu plus de 95 %.
Dans le cas où la loi est triangulaire, on obtient 95 %, mais c'est un cas particulier (exemple : somme des numéros obtenus au lancer de deux dés équilibrés).

À part faire le programme et n'en tirer aucune conclusion, je ne vois pas quoi faire sur ce point.
Si quelqu'un a quelque chose d'intéressant à proposer ?
Merci.

Réponses

  • Si ce n'est pas explicitement autorisé, il est interdit de faire tourner la procédure dans des cas réels ou simulés ?
  • Je comptais bien le faire sur des cas simulés en effet (c'est la première ligne de l'extrait), par exemple la somme des deux nombres obtenus lors du lancer de deux dés, ou encore le nombre de lancers d'une pièce de monnaie nécessaire à l'obtention du premier.
    Mais que dirais-tu comme conclusion sur ces cas, suite à l'observation du fait que les proportions obtenues semblent osciller autour d'une valeur... ?
  • Peut-être que ce sont des vérifications expérimentales des propriétés admises et à connaître qui vont venir ? D'une part, les proportions se stabilisent après un grand nombre de coups ; d'autre part, il reste des fluctuations dont on peut prédire l'ampleur avec un faible risque d'erreur / avec une grande fiabilité / avec une forte probabilité de tomber juste.

    Cela dit, je ne suis pas probabiliste et je n'ai jamais eu à présenter ces choses formellement en seconde.
  • Moi non plus je ne suis pas probabiliste et aucun formalisme n'est attendu en seconde, comment le pourrait-on ?

    Merci pour tes idées. Nous avons une grand-messe avec les IPR en janvier, je poserai également la question.
  • (je poste par morceaux, parce que j'ai un problème d'encodage, et je me fais jeter par phorum) : c'est bon, fini !

    On peut y voir un test de normalité.

    Pour un échantillon de loi normale, on s'attend que la proportion soit proche de celle donnée par la loi normale, comme tu as dit environ $95\%$.

    Si on trouve, sur un échantillon assez grand, une proportion trop éloignée, eh bien ça voudra dire que notre échantillon n'est pas de loi normale.

    Par exemple, avec une distribution "toit" : somme indépendante de deux variables uniformes, on n'est pas très loin, et notre test ne permet pas vraiment de rejeter la normalité. C'est peu étonnant, car les distributions "se ressemblent". J'ai fait l'expérience ce midi, et je trouve $\simeq 96,6\%$ pour le "toit".

    (d'ailleurs une somme indépendante de variables uniformes de même loi s'appelle la loi d'Irwin-Hall, et en particulier, la somme de 12 variables uniforme donne une approximation intéressante de la loi normale)

    Mais bon, ce que dit ce test, c'est que la loi normale est fortement concentrée autour de sa moyenne, parce que, avec Bienaymé-Chebyshev, dans $[m-2s,m+2s]$, on ne peut minorer que par $1-\frac{1}{2^2} = 1-\frac{1}{4} = 75\%$. (et cette minoration par Bienaymé-Chebyshev est atteinte)

    Une variante plus intéressante, ce serait de voir que pour une distribution normale, on a $68,3\%$ des valeurs qui tombent dans l'intervalle $[m-s,m+s]$. C'est plus caractéristique, parce que justement Bienaymé-Chebyshev donne comme minoration $1 - \frac{1}{1^2} = 0$, ce qui ne nous apprend rien.

    (enfin bon, bref : ça pourrait servir à reconnaître des échantillons qui ne sont pas de loi normale, mais ce n'est pas un très bon test !)
  • Ah et puis plus généralement, si on a deux échantillons suffisamment grands (représentatifs), et que ceux-ci n'ont pas la même proportion de valeurs dans leurs $[m-2s,m+2s]$ respectifs, alors, ils ne peuvent pas, en loi, être obtenus l'un de l'autre par un ajustement affine !

    Par exemple, pour la loi uniforme (quand je dis uniforme, je fais uniforme continue à densité, pas un lancer de dé, même si ça ne changerait pas grand-chose pour un dé avec beaucoup de faces !), toutes les valeurs sont dans $[m-2s,m+2s]$, car $s \simeq \frac{|b-a|}{\sqrt{12}}$ (écart type théorique !), donc $[m-2s,m+2s] \supset [a,b]$, donc la proportion est de $100\%$.

    Alors que comme on a dit, pour une somme de deux uniformes, on ne trouve que $96,6\%$.

    Donc, il n'existe pas $a,b$ tels que $a U + b$ ait la même loi que $V_1 + V_2$.

    Remarque :
    Pour la loi normale, je trouve une proportion de $95,4\%$.
    Dans nos trois exemples, les proportions sont donc : $95,4\%$, $96,6\%$, $100\%$.
    À mon avis, pas de quoi passionner des élèves de seconde...

    Avec un intervalle de la forme $[m-s,m+s]$, un échantillon (50/50) de 0 et de 1 donnera toujours une proportion $50\%$ (mais c'est vraiment un hack)
  • Et je précise que j'ai pris des échantillons assez grands : $N = 10^6$ (un million).

    En probas, quand on fait une estimation, il faut s'attendre à avoir une erreur de l'ordre de $\frac{1}{\sqrt{N}}$, donc pour $N=10^6$, on peut s'attendre à avoir une erreur $\simeq 0,001$ (deux-trois chiffres significatifs).

    Si on ne prend que $N=10^4$ (dix mille), on n'aura que un-deux chiffres significatifs, donc pour distinguer entre le $95,4\%$ et le $96,6\%$, ce ne sera pas gagné.

    La différence est bien plus nette pour l'intervalle $[m-s,m+s]$, et on pourra donc alors prendre des échantillons moins énormes.
  • Merci marsup pour tes précisions, je regarderai cela à tête reposée.
  • Bonjour,
    en fait tout dépend du point de vue que l'on prend.

    Du point de vue informatique et manipulation de notions élémentaires : l'exercice est intéressant (petite boucle, petits tests, calcul de moyenne / écart-type...)

    Du point de vue physique / sciences de l'ingénieur : dans de nombreux cas les phénomènes observés vont plus ou moins suivre une loi normale. Du coup lorsqu'on attends d'un physicien / ingénieur de fournir des estimations par simulations on attend aussi un intervalle d'incertitude qui sera [m-2s,m+2s] dans de nombreux cas. Commencer à faire rentrer cette idée n'est pas absurde.

    Du point de vue mathématique : l'exercice semble dangereux. La conclusion que pourrait garder les élèves c'est que dans tous les cas on aura une proportion de l'ordre de 95% dans [m-2s,m+2s] (il y a bien des illuminés pour prétendre que tout suit une loi normale...). Surtout quand on sait que l'une des raisons de la crise financière de 2007 est d'avoir largement cru au caractère gaussien généralisé qui sous-estime le risque. Aujourd'hui les queues lourdes sont plus la norme. Il y a peut-être moyen de trouver des données financières à queue lourde pour pointer cela (voir par exemple https://hal.inria.fr/hal-00851429/document ).
Connectez-vous ou Inscrivez-vous pour répondre.