Test d'hypothèse / Estimation en Terminale S

Bonjour,

Je vous soumets l'exercice (de Bac S, année 2014) suivant :

"Une étude réalisée en l'an 2000 a permis de montrer que le pourcentage de Français consommant régulièrement des glaces était de 84 %.
En 2010, sur 900 personnes interrogées, 795 d'entre elles déclarent consommer des glaces.
Peut-on affirmer, au niveau de confiance de 95 % et à partir de l'étude de cet échantillon, que le pourcentage de Français consommant régulièrement des glaces est resté stable entre les années 2000 et 2010 ?"

1°) Selon moi, il n'y a pas d'ambiguïté : il s'agit de tester l'hypothèse p = 0,84 (pour 2010) au niveau de confiance de 95 %.
Les hypothèses nécessaires étant vérifiées, un intervalle de fluctuation asymptotique de la fréquence des Français consommant régulièrement des glaces dans les échantillons de taille 900, au niveau de confiance de 95 % est [0,816 ; 0,864]. Or la fréquence observée dans l'échantillon n'appartient pas à cet intervalle.
On rejette donc l'hypothèse p = 0,84 au niveau de confiance de 95 % et on conclut en conséquence.

2°) Voici la solution proposée par une élève :
Elle détermine un intervalle de confiance de la proportion p des Français consommant régulièrement des glaces en 2010. Elle trouve [0,85 ; 0,917]. Et conclut : "comme 0,84 n'appartient pas à cet intervalle, le pourcentage de Français consommant régulièrement des glaces n'est pas resté stable entre les années 2000 et 2010".

Question : selon moi, cette deuxième solution est incorrecte (càd qu'elle ne permet pas, contrairement aux apparences, de répondre à la question posée). Ai-je raison et dans ce cas, où est l'erreur de raisonnement ?

Mon argument est indirect : si on prend dans l'énoncé 785 - au lieu de 795 - comme résultat du sondage, on aurait :

* Solution 1 : 785 / 900 n'appartient pas à l' intervalle de fluctuation asymptotique [0,816 ; 0,864]. On rejette l'hypothèse p = 0,84 au niveau de confiance de 95 % ; le pourcentage de Français consommant régulièrement des glaces n'est pas resté stable entre les années 2000 et 2010.
* "Solution 2" : 0,84 appartient à l'intervalle de confiance [0,838 ; 0,906] ; le pourcentage de Français consommant régulièrement des glaces est resté stable entre les années 2000 et 2010 au niveau de confiance de 95 %", càd le contraire de la conclusion précédente.
Où est l'erreur ?

J'espère que mon propos est clair, et que quelqu'un pourra m'expliquer la subtilité qui m'échappe.
D'avance merci.

Réponses

  • Bonjour.

    Je ne vois pas de souci dans la démarche de l'élève, qui teste si l'estimation qu'on peut faire de la proportion est compatible avec la référence 0,84. Il s'agit ici de deux démarches de test différentes, qui, généralement, donnent le même résultat. Mais il peut arriver, comme tu le signales, que ce ne soit pas le cas, lorsque la valeur est proche des bornes des intervalles.
    Par contre, son intervalle de confiance est plutôt large (formule générale du cours ?), mais elle ne dispose peut-être pas de la formule plus précise.

    Enfin rappelons qu'il y a ici une chance sur 20 de se tromper si la proportion a été conservée.

    Cordialement.
  • Merci de ta réponse rapide.

    En terminale, l'intervalle de confiance d'une proportion au niveau de confiance de 95 % est donné par :
    [f - 1 / racine(n) ; f + 1 / racine(n)].

    C'est le "généralement" de ta réponse qui me surprend. Ces 2 démarches sont totalement différentes dans l'esprit : dans un cas, c'est un test d'hypothèse, dans l'autre cas une estimation d'une proportion inconnue (donc pas un test).
    Donc je pensais que l'une était hors contexte.

    De plus, intuitivement, il me semble surprenant que les deux n'aboutissent "pas toujours" à la même conclusion : si les 2 démarches sont correctes, on s'attend à des conclusions identiques (étant entendu qu'on a toujours un risque d'erreur de 5 % de conclure quelque chose à tort, comme tu le précises).
    Existe-t-il des conditions pour "avoir la même réponse" ? A quoi est dû cette différence potentielle de conclusion dans les deux démarches mathématiquement, outre le fait qu'on est proche des bornes de l'intervalle ?

    Cela me laisse perplexe. Pas vraiment clair et transparent, ce genre de situation... J'imagine ce que peuvent en penser des élèves (et y comprendre) !
    Cordialement.

    PS : la correction de cet exercice, que l'on peut trouver sur le site de l'APMEP, ne parle que de la première solution, ce qui ne signifie pas bien sûr que ce soit la seule façon de procéder.
  • Dans les deux cas, il s'agit de tests. Avec le niveau des terminales qui n'ont pas la formation sur les tests d'hypothèse. Et comme ce sont deux tests différents, il est normal que l'un puisse donner à penser qu'il y a une différence, l'autre qu'il n'y en a pas.

    " A quoi est dû cette différence potentielle de conclusion dans les deux démarches mathématiquement, outre le fait qu'on est proche des bornes de l'intervalle ? " Au fait qu'on ne fait pas la même démarche (tu le savais, tu pensais qu'une des deux était fausse). Attention, il n'y a pas de "conclusion" au sens mathématique.

    Pour mieux comprendre, il n'y a qu'une solution, étudier sérieusement ce qu'est un test d'hypothèse (dans un bon bouquin de statistiques). Ça se fait bien, j'ai fait ça avec les collègues quand c'est apparu dans les programmes de BTS vers 1990; et je n'ai jamais eu de cours de probas ou de stats.

    "Pas vraiment clair et transparent, ce genre de situation... J'imagine ce que peuvent en penser des élèves (et y comprendre) ! " Oui, et c'est pourquoi les statisticiens considèrent que ces programmes sont une grosse erreur (et ceux qui ont ces élèves ensuite ont beaucoup de mal à les former sur ces sujets).

    Cordialement.
  • Ok merci, je vais perfectionner mes connaissances (ou ce que je pensais avoir compris) sur les tests d'hypothèse...

    Aurais-tu par hasard, un bouquin précis à me conseiller sur le sujet ?

    Merci pour tes réponses.
    Bonne soirée.
  • Aucun de coût modique. J'ai beaucoup travaillé avec le Saporta (probabilités, analyse de données et statistiques), mais il couvre un bien plus large domaine. Sur Internet, j'avais un excellent cours, mais on ne le trouve plus. Tu peux regarder ce cours qui me semble correct, ou celui-ci qui me semble un peu plus costaud (niveau + élevé des étudiants).

    Cordialement.
  • Un grand merci pour tes deux liens (tu) !

    Je vais clore ce sujet, en te souhaitant une bonne continuation.

    Cordialement,
    Philavelo
  • Bonjour,

    Je voudrais signaler un cours interactif de base en statistique sur internet st@tnet pour ceux qui ont à se former rapidement.

    Cordialement
  • Je me permets de réveiller ce sujet.

    D'après ce que je comprends, la démarche 1 consiste à regarder si $f \in [p-r,p+r]$, où $f$ est la fréquence observée, $p$ la "proportion vraie" de l'hypothèse nulle, $r$ le rayon de l'intervalle de confiance. Et la démarche 2 consiste à regarder si $p\in [f-r,f+r]$.

    Les deux démarches devraient donc être équivalentes (la question étant : a-t-on $|f-p|\leqslant r$).

    Sauf que les deux rayons des intervalles de confiance que tu mentionne ne sont pas les mêmes. Ton élève semble avoir utilisé le $1/\sqrt n$ du cours, tandis que l'intervalle que tu proposes dans la démarche 1 semble plutôt provenir d'un $1{,}96\,\sqrt{pq/n}$, donc d'une variante asymptotique... Non ?

    À noter que si l'on utilise un intervalle de confiance asymptotique, on n'obtient pas nécessairement le même test, puisque le rayon dépend de la fréquence observée.

    (J'espère ne pas avoir dit trop d'âneries et le cas échéant je serai ravi qu'on me corrige.)
  • Skilveg,

    tu as raison si le r calculé est le même. Malheureusement, dans un test d'hypothèse par intervalle de confiance, on ne peut pas utiliser un intervalle de confiance "maximal" (celui qui fonctionne pour toutes les valeurs de p), car ça diminue la puissance du test.

    Dans la méthode (vue en seconde) de philavelo, on ne fait qu'une vérification grossière que "ce n'est pas trop étonnant". Rien de plus, il ne s'agit pas (ce n'est pas vraiment enseigné en lycée) d'un test d'hypothèse. Et ce qu'on voit en terminale (méthode de l'élève) est une caricature (par simplification) de ce que sont les tests (*); la réponse de l'élève est d'ailleurs caractéristique : On n'a rien prouvé sur la consommation de glaces, l'affirmation "le pourcentage de Français consommant régulièrement des glaces n'est pas resté stable entre les années 2000 et 2010" n'est pas justifiée (tout au plus, peut-on mettre en doute l'affirmation contraire, avec une chance sur 20 de se tromper si elle est vraie !!).

    Cordialement.

    (*) Il existe sans doute des profs qui essaient d'enseigner les subtilité de cette méthode des tests d'hypothèse, mais qu'en font leurs élèves ?
  • Merci beaucoup pour ta réponse !

    La façon dont je voyais les choses quand j'ai été amené à essayer d'enseigner ça en TS est la suivante : "on fait l'hypothèse que la proportion vraie est $p$, et donc que la variable `nombre de résultats positifs' suit $\mathscr{B}(n,p)$ ; alors la probabilité que la fréquence observée soit en-dehors de l'I.C. calculé est inférieure à 5 %". Non ? Et dans le cas asymptotique (i.e., dans le fond, avec le théorème central limite), l'hypothèse et l'intervalle utilisés permettent bien un rayon en $\sqrt{pq}$.

    En fait, il me semble en y repensant que la partie "test d'hypothèse" en TS est classée dans "intervalles de fluctuation (éventuellement asymptotiques)" ce qui ajoute à la confusion. Il faut vraiment que je me replonge dans ces subtilités de vocabulaire (notamment en retrouvant une discussion du forum qui présentait les choses plutôt clairement).
  • Suis le conseil de Jma.
    Les auteurs sont calés, la partie "tests d'hypothèse" est bien faite.

    Mais tu as raison, une fois l'hypothèse $H_0$ correctement posée, on utilise bien un intervalle de fluctuation (puisqu'on connaît la proportion !); mais classiquement, on ne faisait pas la différence, et on parlait souvent d'intervalle de confiance.

    Bien entendu, rien à voir avec le programme malsain de TS.

    Cordialement.
  • Merci du conseil (à toi et à Jma), je vais me pencher sur tout cela !
  • Bonjour,

    Si je peux me permettre, concernant la phrase suivante de l'avant dernier message de Skilveg :

    "on fait l'hypothèse que la proportion vraie est p, et donc que la variable `nombre de résultats positifs' suit B(n,p) ; alors la probabilité que la fréquence observée soit en-dehors de l'I.C. calculé est inférieure à 5 %".
    On teste cette hypothèse et on prend une décision à partir d'un échantillon, en regardant regardant si la fréquence
    appartient à l'intervalle de fluctuation asymptotique au seuil de confiance de 95 %, et pas à l'I.C. (qui est un autre intervalle en tout cas pour moi).
    Je me trompe ?

    Cordialement,
    Philavelo
  • Je pense que c'est le sens de la phrase de gerard0 : "classiquement, on ne faisait pas la différence, et on parlait souvent d'intervalle de confiance". Le programme de TS fait effectivement la différence entre I.F. (pour les tests d'hypothèse) et I.C. (pour l'estimation).
  • Oui, c'est un intervalle de fluctuation. Mais le nom a peu d'importance, il ne dit que le fait qu'on connaît la vraie valeur.
  • Je complète en rappelant que dans de nombreux tests, on n'a pas de valeur connue pour comparer, et qu'on y utilise des intervalles de confiance. Par exemple pour la comparaison de deux fréquences (2 échantillons).

    Cordialement.
  • Petite remarque : on a tendance à répéter aux élèves depuis la 2nde qu'en dehors d'instructions claires dans l'énoncé, ils sont censés utiliser un intervalle de fluctuation asymptotique lorsqu'une hypothèse est faite (explicitement) sur la probabilité ; et un intervalle de confiance lorsque ce n'est pas le cas (et qu'on a donc à notre disposition qu'une fréquence). Dans ce sens la démarche de l'élève me paraît tout à fait logique.
Connectez-vous ou Inscrivez-vous pour répondre.