intervalle de fluctuation

Bonjour,
au sein d'une population, on connaît la proportion p des individus ayant un caractère donné.
Parmi les échantillons de taille n extraits de cette population, la fréquence d'apparition f du caractère varie avec l'échantillon prélevé. Est-il bien vrai d'écrire :
pour un échantillon de taille n>=25 et pour p comprise entre 0,2 et 0,8, la fréquence d'apparition observée f appartient à l'intervalle [p - 1/rac(n) ; p + 1/rac(n) ] avec une probabilité d'au moins 95% ou encore qu'il y a au moins 95% de chances que f appartienne à [p - 1/rac(n) ; p + 1/rac(n) ]. On risque de commettre une erreur avec une chance inférieure à 5%.

Peut-on parler indifféremment de "proportion" et de "fréquence" ?

merci beaucoup,
Cédric

Réponses

  • Ton intervalle $[p\pm 1/\sqrt{n}]$ est farfelu :

    Dans la marge d'erreur (ce qu'on ajoute/soustrait à $p$ pour obtenir un intervalle), il doit toujours apparaître une sorte d'écart-type (ici, ce serait quelque chose comme $\sqrt{p(1-p)}$). Par ailleurs, tu parles d'intervalle à 95 pourcents, mais comment fais-tu un intervalle à 90 pourcents? Tu vois bien que le niveau n'apparaît nulle part dans ta formule.

    Sinon, moi je dis plutôt $p$ pour la proportion dans toute la population et $f$ la fréquence observée sur un échantillon.
  • Bonjour.

    Lucas, il faut interpréter l'intervalle comme un intervalle de sureté : L'intervalle contient la fréquence avec une probabilité au moins égale à $95\%$.

    Cirdec : Ce que tu dis ressemble de très près aux programmes de seconde s'il y a quelques années (est-ce encore dans les programmes actuels ? je ne les connais pas précisément) à propos de la fluctuation d'échantillonnage. Malheureusement c'est faux. Par contre, pour des échantillons de l'ordre de 50 ou plus, pas de problème : l'erreur vient d'une double (voir triple) approximation qui ne compense pas complétement : majoration de l'écart type et approximation par une loi Normale.
    L'idée la plus utile en pratique est que $\displaystyle |f-p| < \frac 1 {\sqrt n}$, car en général, p est inconnu (sauf théorisation mathématique), alors que p est facile à obtenir.
    Autre problème : Cette formule est fausse si l'échantillon n'est pas très faible par rapport à la taille de la population. Si on a 100 individu et qu'on en teste 25, inutile d'utiliser cette règle (*). Par contre si on teste 100 individus pris au hasard parmi un million, plus de souci.

    Cordialement.

    (*) la loi hypergéométrique ne s'approxime pas correctement par une loi Normale, dans ce cas.
  • Bonjour,
    merci à vous Gérard0, vous avez raison il s'agit des "nouveaux programmes de seconde " concernant l'intervalle de fluctuation.
    En stage de l'enseignement secondaire de 2010 pour la mise en place de ces notions sur lesquelles il nous est demandé d'insister, on nous a expliqué que si on a un échantillon de n boules extraites dans une urne où l'on connait la proportion p de boules blanches, la variable aléatoire X correspondant au nombre de boules blanches dans un échantillon de taille n (n tirages avec remise) suit une loi binomiale de paramètre (n;p). et que la probabilité que f (la fréquence de boules blanches dans l'échantillon) appartienne à l'intervalle
    [p - 1,96* racine(p(1-p) /racine(n) ; p + 1,96* racine(p(1-p) /racine(n) ] est environ égale à à,95 (ce qui reste un mystère ...). Cet intervalle est l'intervalle de fluctuation au seuil de 95%.
    Comme p(1-p) <= 1/4 d'après un calcul que je n'ai pas fait avec p compris entre 0,2 et 0,8, on élargit l'intervalle de fluctuation au seuil de 95% à [p - 1/racine(n) ; p + 1/racine(n) ]
    sachant que p est compris entre 0,2 et 0,8 et que n>=25.
    Pourriez-vous me repréciser ce qui est faux dans le message des formateurs !
    Merci beaucoup,
    Cédric
  • Pas de problème :

    Ok pour la loi binomiale pour un tirage avec remise. Par contre, tu parlais d'un échantillon de taille n d'une population, ce qui correspond à un tirage sans remise. Pour l'échantillon, la loi n'est pas la loi binomiale, mais la loi hypergéométrique. Si l'échantillon est très petit par rapport à la population, on peut approximer la loi hypergéométrique par une loi binomiale (intuitivement, le fait de ne pas remettre change trop peu la probabilité de tirage pour qu'on en tienne compte).

    Par contre, "l'intervalle [p - 1,96* racine(p(1-p) /racine(n) ; p + 1,96* racine(p(1-p) /racine(n) ]" correspond à l'utilisation d'une loi Normale, c'est à dire à l'approximation de la loi binomiale, approximation qui n'est valable que pour de grands échantillons. La valeur de 25 des programmes de seconde est trop faible, et on peut montrer que dans certains cas, la probabilité d'être dans l'intervalle est inférieure à 95 %. Mais dès qu'on dépasse 30, ce n'est plus le cas, si je me souviens bien.

    La règle "p(1-p) <= 1/4" est facile à prouver, valable pour toute valeur de p (étudier les variations de p(1-p) en fonction de p. La condition 0,2<p<0,8 n'est là que pour assurer qu'on a un intervalle "raisonnable", car l'application de la règle pour p proche de 0 donne un intervalle en partie négatif (gênant pour une proportion) et trop grand dans les positifs.

    Cordialement.

    Mais d'un point de vue pédagogique, il est pratique d'utiliser peu de valeurs, donc de ne pas se formaliser : On est quand même proche du bon ordre de grandeur.
  • Bonjour Gérard, bonjour Cirdec,

    La condition n>=30 est donnée par la plupart des livres pour remplacer la loi binomiale par la loi normale, souvent avec d'autres conditions (p et q pas trop proches de 0 , pour éviter de tomber sur Poisson).La valeur de 25 est assez bizarre.
    Précisons pour Cirdec d'où vient 1,96.
    Si Z est la loi normale réduite, on vérifie à l'aide de la table que P(-1,96<Z<1,96)=0,95.
    Il suffit d'appliquer ce résultat à la fréquence, qui suit une loi normale de moyenne p et d'écart-type
    racine(pq/n)
  • Bonjour,

    je me permets de déterrer ce fil car j'aimerais savoir quelles sont les hypothèses précises pour que l'inégalité $\vert f-p\vert <\dfrac{1}{\sqrt{n}}$ soit vérifiée.
    Merci d'avance.
  • Bonsoir Sylvain.

    Il n'existe aucune règle permettant d'assurer cette inégalité pour n quelconque. Elle est toujours vraie pour $n=1$ et $n=2$.
    Donc pour la vraie question, qui est que la probabilité que cette inégalité soit fausse soit inférieure à $5 \%$, les conditions sont un peu floues dans la littérature, car on n'a pas besoin d'une grande précision en statistiques. Il faut déjà que le tirage se fasse avec remise (ou avec remise dans une population très grande par rapport à $n$) et que $n$ soit suffisamment grand ($n \ge 30$ est conseillé), mais aussi que $p$ ne soit pas trop proche de 0 ou 1. Si tu veux plus précis, il existe pour toute valeur de $n$ un intervalle maximal sur $p$ qui permet d'assurer l'inégalité au risque $5 \%$, intervalle centré si je ne me trompe sur $\frac 1 2$. Mais la détermination de cet intervalle de fréquence n'intéresse pas grand monde (ça a sans doute été fait).

    Cordialement.

    NB : Pour bien comprendre, le mieux est de lire un cours de statistiques inférentielles, partie "échantillonnage, estimation".
  • Bonjour,
    A la suite d'une conjecture émise par un collègue, Louis-Marie Bonneval de l'académie de Poitiers, a été démontré, me semble-t-il par Daniel Saada, qui fréquente de temps en temps le forum, le fait que la probabilité que $f$ soit comprise entre $p - \frac {1} {\sqrt{n}}$ et $p + \frac {1} {\sqrt{n}}$ est d'au moins $90 \%$ quel que soit $n$.
    On y parvient par des encadrements assez fins sur les coefficients binomiaux. Si Daniel Saada passe par ici, il pourra en dire plus.
    Bien cordialement,
    Christian
  • Merci de l'info.
  • Bonjour,
    Quelques précisions sur le site suivant, que je viens de retrouver sur mon ordinateur:
    http://www.apmep-aix-mrs.org/bulletin/num11/maillard.htm
    Bien cordialement,
    Christian
  • Bonjour à tous,

    Voila mon article sur le sujet

    Cordialement
Connectez-vous ou Inscrivez-vous pour répondre.