Intervalle de fluctuation, seconde

Bonjour à tous,

Dans le cadre des intervalles de fluctuations, on note $p$ la proportion connue (ou pas), $f$ la fréquence observée sur un échantillon de taille $n$.
L'intervalle $J$ de fluctuation au seuil de $95 \%$ est défini par : $J=J_n(p)=[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}]$
Je note $E$ l'événement $E : f \in J$.

1) on avait un théorème faux énoncé sous forme de "résultat" dans les programmes précédents.
L'erreur était de dire : $\mathbb P_p(E) \geq 0,95$.
Les documents d'accompagnement précisaient que les hypothèses utilisées dans la pratique étaient : $n \geq 25$ et $0,2 \leq p \leq 0,8$.

2) un projet de réaménagement parlait, de manière moins prétentieuse du théorème suivant :
Si $n \geq 30$, $np \geq 5$ et $n(1-p) \geq 5$.
Alors : $\mathbb P_p(E) \approx 0,95$.
C'était écrit « probabilité voisine de 0,95 », sans, bien entendu, préciser l'erreur commise...chose qui fait recaler en général un CAPESien s'il ne voit pas le problème...mais là n'est pas mon sujet.

3) les derniers programmes sortis (mai 2017) ont retiré pas mal de trucs.
Ils ne parlent plus de la mise en pratique et des conditions (sur $n$ et $p$) d'utilisation de l'intervalle $J$.
Évidemment, les documents d'accompagnement, eux n'ont pas bougé d'un pouce et on trouve encore les conditions de mon "1)".

Questions : quelqu'un pourrait-il me dire ce qui reste pertinent à raconter ?
Et si ce sont des choses que l'on utilise vraiment comme cela (j'entends avec les conditions "1)" ou "2)".)
Qu'en disent les statisticiens ?

Bien cordialement.

Dom

Edit : indices $p$ et $n$ ajoutés

Réponses

  • En effet, j'ai mis l'article défini "L'intervalle" mais il en existe plusieurs.
    Un seul est centré en $p$ (Ou disons, une seule classe ?).

    Aussi, dans certains documents venait venant des académies, ils définissent ces intervalles comme ayant une probabilité égale à 0,95. Hum...


    Pour ta seconde remarque, en effet, je crois avoir lu sur le forum que c'est la notion d'intervalles de confiance qui est Pro tandis que celle des intervalles de fluctuation serait une invention pédagogique (sans utiliser ici une expression à dessein péjoratif).
  • Dans les lycées, ces sujets ne posent pas de problème "pragmatiques" (avec ou sans erreur) car les questions sont toujours la même et les réponses connues par coeur (les élèves prennent la calculatrice pour finaliser l'attendu d'une réponse numérique).

    En principe, ça prend au total 2-3H de cours chaque année (pour un résultat de 5/5 au bac pour presque tout le monde toute section). si un lycée est pragmatique, tout le monde s'entend pour ne pas aborder ces sujets en 1ère ou 2nde (afin de les consacrer à des trucs plus problématiques) et tout le monde s'entend pour former les term à l'exo du bac entre le 28 mai minuit et le 31 mai minuit selon les edt. Après dans les bahuts où "ça foyotte" ou si il y a des stagiaires, certains font semblant de s'apesantir la dessus pour faire mode et plaire à l'ipr s'ils ont un RV. C'est variable.

    Dans les paquets de copies de bac, tout le monde a les points à ces exos (ça varie de 3.5/5 à 5/5), toute filière confondue (certains n'ont les points qu'à cet exo).

    Le nettoyage des programmes de 2017 est de ce fait "purement intellectuel" (depuis 10ans qu'on dénonçait cette erreur, ça finirait bien par être corrigé), mais n'aura a priori pas d'incidence surles pratiques, si ce n'est une, qui est saine, de diminuer le nombre d'heures consacrées à ces imbécillités (donc comme on est déjà à 3H chez les pros expérimentés et honnêtes... )

    Du coup, je ne sais trop sous quel angle tu souhaites avoir des infos.
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • Ok.
    Les infos que je demande concernent notamment les conditions utilisées ?
    Celles du 1), celles du 2), d'autres...?

    Par exemple, dans la rédaction d'un corrigé, on doit s'attendre tout de même à justifier "que l'on peut prendre la calculatrice".
    D'ailleurs, ton histoire de calculatrice est davantage pertinente pour le lien avec la loi normale/binomiale (pardon pour ce raccourci), non ?
    Mais pas tellement en seconde (où tu dis, en substance, que peu de profs l'abordent là où tu es).
    Ou alors j'ai mal compris.

    NB : dans ta définition, je peux te dire qu'il existe quand même beaucoup de lycées peu "pragmatiques" (j'entends par là que même sans des fayots et/ou stagiaires, des profs traitent de cela en seconde, sans torcher le boulot).
  • Je ne parlais pas de mon lycée.

    <<sans torcher le boulot>> Je ne comprends pas ce que tu entends pas là. Personne ne "le torche" (je ne parle pas des maths mais des objectifs atteints "E.N."), puisque tout le monde a 5/5 au bac en y consacrant 2H en 3ans (à part peut-être les bahuts ou profs un peu "empotés"). Par contre, un enseignement réel de fond de cette thématique n'est pas possible du tout, même si tu passes l'année dessus (c'est du bac +5, comme tu sais, c'est incompréhensible même pour les pros non spécailisés en proba-stat).

    Je répète donc:

    1) tu as un "raccourci pragmatique" qui te fait que tous tes élèves ont 5/5 au bac en y passant 3H en 3ans (mariage du tracage habituel du bac et du thème à exercice unique)

    2) Comme tu sais, cette thématique, inabordable même en L2 à des bons étudiants par ailleurs, ne peut pas être enseignée (trop difficile)

    Je ne sais pas quoi te répondre d'autre du coup. Peut-être connais-tu des gens capables de former à un M1 proba-stat des bambins de 14ans-16ans. Auquel cas, conseille-leur de se faire connaitre, ils doivent valoir entre 50 et 500 milliards sur le marché. Pour ma part, (et je ne suis pourtant vraiment pas modeste) je ne sais pas faire.
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • On va tourner en rond.
    Je te dis qu'il existe des profs, même en fin de carrière, qui ne mettent pas trois heures par an (ou en trois ans) à faire ça.
    Je trouve scandaleux qu'on les qualifie d'empotés, ou de fayots ou de je ne sais quoi.
    Mais bon, franchement, je me fiche de ce débat, puisqu'il tourne autour de toi et TA définition du pragmatisme.

    [small] Une petite pique, avec humour, quand même, sans méchanceté aucune : en changeant les définitions de tous les mots que tu utilises, on peut faire rendre n'importe qui d'accord avec toi. [/small] ;-)

    Ma question porte sur les hypothèses d'application de ces intervalles.
    Cela ne passionne pas, ou ne trouve personne qui veuille dire quelque chose.
    Je ne sais même pas si "c'est faux" avec les hypothèses 1) ou si "c'est faux" avec les hypothèses 2).
    Je ne sais pas si des PRO utilisent ces intervalles ou d'autres (on a ceux données en Tale, par exemple).
    Même en faisant cela en une heure au mois de juin, en seconde, quelqu'un fait-il vérifier certaines conditions aux lettres $n$ et $p$ par les élèves ? Ou bien même pour $n=2$ et $p=1$, on laisse appliquer sans rien dire "la méthode".

    Enfin, je suis d'accord sur le niveau de maturité nécessaire pour encaisser ces notions.
    Et ce n'est pas mon débat non plus.
  • @dom je répondais à une partie de TES questions. Ne m'engueule pas parce que je n'ai pas répondu à TOUTES.
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • @cc
    Ok. J'ai pu être irritable, il est vrai.
  • Bigre, en cherchant partout, il se trouve que la page WIKI répond à la question (même si chacun sait qu'il faut se méfier de tout ce que l'on trouve...). Rien que la note de base de page "1" parle de cela et des programmes de 2nde.

    Pourquoi chercher midi à quatorze heures ?

    Evidemment, j'aimerais une source de ces affirmations...mais c'est déjà cela.

    https://fr.wikipedia.org/wiki/Intervalle_de_fluctuation#cite_note-1
  • Bienaymé-Tchebichev ; il n'y a que ça de vrai et c'est facile à prouver. B-)
  • Oui, c'est toujours ce que je fais ne connaissant pas trop de choses à ce sujet.
    En effet, c'est déjà pas mal.
  • Le problème est que cette partie fait appel à des notions trop poussées pour des lycéens.
    Ca donne quelque chose aussi approximatif que cela (une des pires vidéos de maths que j'ai vu) :


    En 5 min, résumé de tout ce qui me choque :

    - "Bernoulli" (c'est un nom compliqué ?),
    - "ni oui ni non, il n'y a que deux issues " (??),
    - "la théorie ne s'applique pas si $n \leq 25$" (qu'est-ce qu'une théorie en maths ?),
    - "si je lance un dé 10 fois, je ne vais pas obtenir 5 fois un résultat pair et 5 fois un résultat impair" (et bien si c'est possible...),
    - "ce nombre 50 fluctue, il varie dans un intervalle" (je ne savais pas qu'un nombre entier pouvait "fluctuer"... (!!!). L'intervalle considérée porte d'ailleurs sur la fréquence, donc elle aurait du dire "1/2" pour être cohérente avec la suite.)
    - "$[p - \frac{1}{\sqrt{n}}, p + \frac{1}{\sqrt{n}}]$, une formule compliquée qui n'est pas exigible mais qu'il faut connaître" (ah bon c'est compliqué - il ne faut pas la savoir mais la connaître ??)
    - "Ca veut dire que dans 95% des cas le nombre cherché sera compris dans cet intervalle". Pas du tout !!! C'est la probabilité de s'y trouver qui est égale à 95%, grave erreur.


    Sans compter bien sûr que rien n'est prouvé ; bref...
  • Un question pour les collègues de lycées ; y-a t-il de vos lycéens qui ont remarqué qui si $n =2$, le résultat est trivialement vrai ?
  • En effet, j'espère avoir un moment pour tracer tout ça et regarder aussi les cas où on passe sous 95% (Daniel Perrin a déjà fait le boulot ;-)).
  • Merci à @SchumiSutil pour la vidéo......
    La personne qui intervient dans cette vidéo n'a manifestement rien compris aux notions qu'elle expose....sans parler des commentaires des internautes....
    Il serait temps d'arrêter le carnage et de remanier les programmes en profondeur....
    Liberté, égalité, choucroute.
  • Bonjour.

    Le fameux "intervalle de fluctuation autour de la vraie valeur" en deux graphiques $p=0.5$. Le premier s'appelle "faisons exprès d'être débile", le second s'appelle "arrêtons de faire exprès". Et comme de juste, le premier "ne va pas du tout" et le second "fonctionne sans erreur apparente".

    Cordialement, Pierre67594
    67596
  • Heu...par contre as-tu fait exprès de relier les points ? ;-)
  • Cela dit, je suis tombé sur cela (un exercice de 3ème) :
    Je lance 12 fois une pièce de monnaie et obtiens :
    Pile ; Pile ; Pile ; Face ; Face ; Pile ; Face ; Face ; Pile ; Pile ; Pile ; Face ;
    La pièce est-elle truquée ? Justifie ta réponse.
    Que peut répondre un collégien ?
  • Bonjour SchumiSutil,

    j'aimerais bien avoir la référence la plus précise possible relative à cet exercice.

    Merci,

    S
  • Je me dis qu'en 3e ou en M2, voire en Médaille Fields, la réponse est : je ne peux pas savoir si cette pièce est truquée.
    Non ?
  • En essayant de lire ce fil (allez savoir pourquoi), j'ai fait un joli lapsus. J'ai lu "intervalle de souffrance" pour "intervalle de confiance". Ça résume peut-être tout le problème de Dom ?
  • Non, tout de même pas.
    C'est bizarre, en fait, c'est comme ci si ces notions étaient taboues.
    Comme si, demander pourquoi on exige dans certains bouquins que $n$ ou $p$ soient comme ci ou comme ça, était politiquement incorrect.

    Intervalle d'eructation ?
  • On peut définir un intervalle de gourance ?

    e.v.

    [ Au lit e.v. ! ]
    Personne n'a raison contre un enfant qui pleure.


  • Bonjour.

    Il y a deux situations. (1) Prévoir les $m,s$ d'un futur échantillon connaissant les $\mu,\sigma$ d'une population. (2) Estimer les $\mu,\sigma$ d'une population connaissant les $m,s$ d'un échantillon déjà prélevé (idéalement: connaissant un tirage aléatoire avec remise).

    Dans le second cas, l'idée même d'écrire quelque chose comme $$1-\alpha \leq Pr(m-k_\alpha\,s \leq \mu \leq m+K_\alpha \,s)$$ suppose que la distribution soit "à peu près gaussienne". En effet, la loi de Gauss est la seule loi pour laquelle les variables aléatoires $m,s$ sont indépendantes. Un exemple du problème rencontré: loi uniforme sur [0,1]. Si les éléments de l'échantillon sont dans $[0,a]$, la moyenne est "largement faussée", tandis que l'écart type se retrouve "largement réduit" lorsque $a \rightarrow 0$.

    Dans le premier cas, il est aisé d'obtenir un couple $z_\alpha, Z_\alpha$ tel que
    $$1-\alpha \leq Pr(\mu-z_\alpha\,\sigma \leq \mu \leq \mu+Z_\alpha \,\sigma)$$ Pour la loi normale, on a la règle des deux sigmas qui donne $\alpha=0.0455$ lorsque $z=Z=2$, ou encore $\alpha=0.0500$ lorsque $z=Z=1.95996...$. Pour une loi "à peu près normale", on a donc une "quasi égalité". Considérons une variable binomiale $X(n,p)$: $X$ est le nombre de succès lors de $n$ épreuves de Bernoulli indépendantes avec une probabilité $p$ de réussite individuelle. Fixons $p$, faisons varier $n$ et définissons
    $$f:n\mapsto f(n)=Pr \left(np-1.95996\sqrt{n\,p(1-p)}\leq X \leq np+1.95996\sqrt{n\,p(1-p)}\right) $$ Pour $p=0.5$, une application fautive de cette formule conduit au premier des deux graphes. Et si l'on a décidé de crier sur l'enseignement des probas-stats au lycée, on choisit $n=222$ et l'on fait une casserolade sur le thème $0.940777 < 0.950$.

    Voyons voir d'où sort ce $0.940777$. Il vient d'une évaluation fautive de $$Pr \left( 41.012243039313941902 \leq X \leq 65.991756960686058098 \right) $$ Ou bien l'on considère que la loi qui approche la loi normale est la loi d'une variable réelle, uniformément distribuée sur chaque intervalle [k-1/2,k+1/2[, la masse de l'intervalle étant donnée par la formule usuelle... et alors on trouve $P \approx 0.956>0.950$. Ou bien l'on considère que la loi qui approche la loi normale est la loi d'une variable entière, au quel cas il devrait être évident que $41.012243039$ approche $41$, tandis que $65.991756960686$ approche $66$. Et alors, on trouve $P \approx 0.95906>0.95000$.

    Donc le résultat $0.941<0.950$ ne vient pas d'un trou dans le théorème central limite, ni du fait que la loi normale ne serait pas une bonne approximation de la loi binomiale (dans les conditions usuelles). Ce résultat est simplement lié au fait qu'une variable entière varie par quantités entières. Comme porte-drapeau d'une campagne contre les probas-stats, il faudrait trouver mieux.

    Symétriquement, il semble quelque peu ridicule que les "instructions officielles" ne signalent pas cette propriété des variables entières alors que ce résultat, somme toute essentiel, est aisément démontrable.

    Conjecture: quelques essais numériques donnent à penser qu'il suffit d'utiliser
    $$0.95 \leq Pr \left( round\left(np-1.96\sqrt{n\,p(1-p)}\right)\leq X \leq round\left(np+1.96\sqrt{n\,p(1-p)}\right)\right) $$ sans qu'il soit besoin d'utiliser $floor$ à gauche, et $ceil$ à droite. C'est le deuxième graphique.

    Cordialement, Pierre.

    Edit: erreur de signe dans la définition de $f(n)$, le deuxième est $\mu + z \sigma$
  • Bonjour remark.

    Quand on veut calculer pour de bon la quantité
    $$
    \sum _{k=np-1.95996\sqrt{n\,p(1-p)}} ^{k=np+1.95996\sqrt{n\,p(1-p)}} \binom n k p^k (1-p)^{n-k}$$ on est bien obligé de mettre des parties entières... sinon le logiciel part de la borne inférieure (non entière) et fait tous les calculs avec des $k$ non entiers (étendant la définition des coefficients binomiaux).

    Pour ce qui est de la formule en $\sqrt n $, elle est "plus vraie encore" que l'autre formule, puisque $1.96 \sqrt{p(1-p}\le 1$ est vrai pour toute valeur de $p$. Lorsque $p=0.3$ on a une telle marge de sécurité que l'on peut bien prendre "ceil, floor" pour le choix des bornes. Lorsque $p=0.5$ il n'y a plus cette marge de sécurité, et le choix "round,round" s'impose. Par contre le choix conservatif "floor,ceil" semble inutile (encore plus qu'avant).

    Cordialement, Pierre.
  • @remark.
    Si tu choisis $ceil(a)..floor(b)$ cela donne le premier graphique, celui où "cela ne marche pas". Si tu te demandes pourquoi, tu arrives au fait qu'une fréquence expérimentale est nécessairement un multiple entier de $1/n$, et pas une variable continue. Dans le même genre et en pire: essayer de tester la loi du $\chi^2$ avec des séries de lancers de dés ($p=1/6$).

    Cordialement, Pierre.
Connectez-vous ou Inscrivez-vous pour répondre.