Écart-type ?
dans Statistiques
Normalement, pour une liste $(x_1,\ldots,x_N)$ de longueur $N$ et de moyenne $m$, l'écart-type c'est : $$\sigma = \sqrt{ \displaystyle \frac{1}{N} \sum_{k=1}^N (x_k -m)^2 }.
$$ En tout cas, on me l'a toujours appris comme ça. Et puis, j'ai trouvé quelques sources qui le définissent en divisant par $(N-1)$ au lieu de $N$... par exemple à certains endroits de l'article Wikipédia en anglais sur l'écart-type : ici.
Visiblement, les deux ont une utilité... en plus, en cherchant des calculateurs en ligne, j'en ai trouvé plusieurs qui font le calcul en divisant par $(N-1)$ au lieu de $N$ (j'ai vérifié à la main), donc c'est une convention qui m'a l'air régulièrement utilisée. Par contre, je n'arrive pas à me la justifier, pourquoi diviser par $(N-1)$ ? Ça ne me paraît pas logique.
Quelqu'un peut m'expliquer d'où ça sort ?
$$ En tout cas, on me l'a toujours appris comme ça. Et puis, j'ai trouvé quelques sources qui le définissent en divisant par $(N-1)$ au lieu de $N$... par exemple à certains endroits de l'article Wikipédia en anglais sur l'écart-type : ici.
Visiblement, les deux ont une utilité... en plus, en cherchant des calculateurs en ligne, j'en ai trouvé plusieurs qui font le calcul en divisant par $(N-1)$ au lieu de $N$ (j'ai vérifié à la main), donc c'est une convention qui m'a l'air régulièrement utilisée. Par contre, je n'arrive pas à me la justifier, pourquoi diviser par $(N-1)$ ? Ça ne me paraît pas logique.
Quelqu'un peut m'expliquer d'où ça sort ?
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
C’est une histoire de biais.
Une page sur ce sujet : https://www.rocq.inria.fr/axis/modulad/archives/numero-37/Notule-Grenier-37/Notule-Grenier-37.pdf
Il reste à trouver des démonstrations propres de ces choses-là.
Ça doit se trouver.
Cordialement.
Dom
Les statisticiens sont parfois un peu confus (et les utilisateurs de statistiques non statisticiens, mais l'enseignant, encore plus) : Le mot écart type désigne deux choses différentes suivant les situations :
* En statistiques descriptives, une mesure de dispersion (c'est la formule avec N) des valeurs d'une population connue.
* En statistiques inférentielles, un estimateur de cette valeur pour une population inconnue, à l'aide d'un échantillon pris au hasard ("représentatif"); c'est la formule avec N-1
Comme le contexte permet de savoir si on étudie une population dont on a toutes les valeurs, ou si on estime par échantillonnage, il n'y a pas de problème. Bien évidemment, il ne faut pas se contenter d'une formule.
Cordialement.
Attention : L'estimateur de l'écart type n'est pas sans biais, c'est l'estimateur de la variance qui l'est. Comme la variance est en fait la caractéristique la plus utile, on estime souvent l'écart type par la racine carrée de l'estimateur sans biais de la variance.
Cordialement.
Cordialement.
NB : On préfère ici un estimateur biaisé facile à utiliser aux estimateurs non biaisés connus, moins pratiques.
Ceci étant dit, pour tirer des conclusions théorique (typiquement intervalles de confiance asymptotique) on a juste besoin de la consistance de l'estimateur, donc prendre l'un ou l'autre c'est pareil.
Et pour les conclusions numériques je rejoins jma, surtout qu'on parle plutôt de 99 au lieu de 100 (au moins). Par ailleurs le 1.96 est parfaitement arbitraire : il correspond à un niveau de confiance de 95%, donc le remplacer par 2 ne changera franchement rien à l'interprétation du résultat.
Mais c'est autre chose que le biais : C'est un choix de calcul approché et de niveau de test ou de confiance. L'estimateur de la variance avec N étant asymptotiquement sans biais, prendre N ou N-1 ne change pas grand chose si N est grand. Mais tout ça concerne l'estimateur de la variance.
Pour l'estimateur de l'écart type dont parle Homo Topi, c'est par nature une estimateur biaisé. Je le répète : Sa moyenne n'est pas l'écart type de la population, ce qui est la définition de "biaisé". Contrairement à ce qui est dit dans ce message.
Cordialement.
Je crois que tu veux dire "écart-type" a la place de "variance" dans la deuxième phrase. On a tous des petits "bugs" en ce moment.
C'est exact l'estimateur de l'écart-type est biaisé comme cela. : il suffit de faire le calcul un peu lourd.
Cependant, l'estimateur de référence de l'écart-type est bien avec (n-1) (cf. par exemple méthode du Jacknife) et ce (n-1) vient du biais de la variance empirique avec n. Je n'ai pas d'ordinateur pour écrire en latex mais je pense que c'est mieux dit comme ça quand même. Ainsi,on utilise pour estimer l'ecart--type en (n-1) comme au premier post mais diviser par n ou (n-1) est à peu près la même chose.
Cordialement.
Cordialement.
Cordialement.
Cordialement.
Attention, "biaisé" ne veut pas dire "faux". A priori, tous les estimateurs sont "faux", sauf par chance.
Pour un test, les petites différences entre n et n-1 et entre 1,96 et 2 peuvent faire changer la conclusion théorique : Si on prend un risque de 5%, le changement peut faire passer la p-value de 5,01% (H0 non rejetée) à 4,99 (test significatif, H0 rejetée). C'est d'ailleurs pourquoi il faut se méfier des conclusions des tests quand on est à la limite entre les zones de rejet et d'acceptation.
Cordialement.
Bon, bon.
Edit : si on veut vraiment être un peu sérieux, il faudrait parler des approximations des méthodes d'Analyse Numérique,, de la gestion des erreurs d'arrondis informatiques suivant les langages de programmation mais aussi machine... et le plus important montrer quelques études sur données réelles pour appuyer ses dires. De plus, une psycho-rigidité doit s'imposer pour chaque terme employé. Tout ceci peut être convenablement dominé mais à de grande chance de vous cantonner à l'estimation et à la théorie des tests.
La racine carrée de la moyenne n'est pas la moyenne des racines carrées. Oui, bien évidemment.
Mais quand on parle d'écart-type, ce qu'on cherche à calculer, c'est bel et bien la racine carrée de la moyenne. Donc pas de biais à ce niveau là.
Le biais dont on parle, il vient d'ailleurs. Quand on a une population 'infinie', et un échantillon extrait de cette population, on fait quoi.
Etape 1 : on calcule la moyenne des éléments de l'échantillon --> $E$
Etape 2 : faute de mieux, on dit que la moyenne de l'univers $E_0$, c'est la moyenne de l'échantillon : $Estimateur(E_0=E)$. C'est une estimation, la meilleure, non biaisée (c.a.d. aucune raison de penser que la vraie moyenne soit systématiquement supérieure ou systématiquement inférieure à l'estimation).
Etape 2bis: En parallèle, on calcule une 'incertitude' ou une marge d'erreur autour de cette moyenne : $E_0$ est dans l'intervalle $a,b$
Etape 3 : On calcule l'écart-type ECT de notre échantillon (donc avec la formule de base, en divisant par $n$). Dans ce calcul, on utilise la moyenne $E$ calculée à l'étape 1.
Il se trouve que E n'est qu'une estimation de $E_0$. Si on fait l'expérience, si on remplace $E$ par un nombre $E_1$très proche de $E$, alors le nouvel écart-type qu'on obtient est systématiquement plus grand que celui obtenu par le calcul initial.
L'erreur est toujours dans le même sens. C'est pour ça qu'on parle de BIAIS.
Et si on répète cette simulation plein de fois, en donnant à $E_1$ les différentes valeurs réalistes pour $E_0$, on va obtenir différents résultat pour l'écart-type.
Et il se trouve que la moyenne de ces différents résultats, c'est $\sqrt{ \frac{n}{n-1}} * ECT $
On peut faire tous les calculs, on a plein de trucs compliqués qui s'ajoutent... et tout se simplifie d'un coup.
L'écart-type est biaisé, mais la variance aussi. Tout ce que je dis ici sur l'écart-type, on pourrait dire exactement la même chose sur la variance.
Si on a une population 'infinie', si on a un échantillon de n individus, et si on connaît par ailleurs la vraie moyenne de la population totale ($E_0$ connue), alors on peut calculer la variance en calculant la moyenne des carrés des écarts ($X_i$ -$E_0$)² et non ($X_i$ - E)² , et on divisera par n , classiquement, et pas par n-1.
Dans cette configuration, on connaît la vraie moyenne. Ce calcul donne donc la meilleure estimation (non-biaisée) de la variance ou de l'Ecart-type. Pas besoin de diviser par n-1 au lieu de n.
La moyenne des écarts types des échantillons n'est pas ce que tu dis. Tu mélanges ce qu'on fait sur la variance (où on a bien un estimateur sans biais avec la formule habituelle) et ce qu'on ne fait pas sur l'écart type. Tu as copié ma phrase "La racine carrée de la moyenne n'est pas la moyenne des racines carrées" mais tu fais comme si c'était le contraire, en affirmant que la racine carrée de la moyenne des variances est la moyenne des racines carrées des variances.
C'est un pur résultat mathématique.
Cordialement.
@gerard0 : tu peux prendre mes message mot par mot et être pinailleur. Ainsi, tu peux me faire dire pour N=2 alors tout va très bien pour N ou (N-1), et aussi dire qu'une approximation comme j'en parle, peut me conduire à la p-value=0.0501 alors que non la p-value=0.0499. Tout est faux ! Bien sûr que non, tu n'as jamais fait une étude sur de l'exhaustif (un commentaire idiot). Apparemment, tu es très carré sur un nombre, mais tu n'as pas idée de ce que fait un logiciel de stats comme approximations ! Gros domaine des stats...donc à pinailleur, pinailleur et demi. Enfin juste descends un peu de ta Chaire parce que si on s' y met tous comme si on présentait un article à un comité de lecture...disons un juste milieu.
Bonne soirée.
J'aurais peut-être dû écrire tout mon document sur la variance et pas sur l'écart-type, ça aurait évité de pinailler sur la phrase :'La racine carrée de la moyenne n'est pas la moyenne des racines carrées'
pourquoi es-tu venu ? Pour pinailler ?
Au départ, j'ai simplement corrigé une erreur factuelle, et tu as semblé dire le contraire. Puis tu es devenu de plus en plus confus : Alors, oui ou non, l'estimateur de l'écart type dont parlait Homo Topi au départ est-il biaisé ou non ?
"J'aurais peut-être dû écrire tout mon document sur la variance et pas sur l'écart-type"
Eh oui !! Et ce n'est pas un pinaillage, c'est un fait. Tout bête. mathématique.
Donc tu ne retires rien, tu laisses l'erreur mathématique en plein milieu (car je n'imagine pas que tu confondes la variance et l'écart type).
Cordialement.
En d'autres mots, les moments d'ordre 1 ou d'ordre 2 sont différents. Faut-il écrire tout un roman là-dessus ?
La question était pourquoi ce $n-1$ utilisé en lieu et place de $n$, j'ai donc décrit pourquoi il fallait diviser par un nombre plus petit que n (et par n-1 précisément, pas par n'importe quel nombre)... Je n'ai pas détaillé tous les calculs qui justifient le diviseur $n-1$, mais je suis confiant, on devrait en trouver des dizaines de versions sur le net.
Sinon, j'ai suffisamment dit que l'estimateur généralement utilisé est celui-ci (et Sylviel a rappelé pourquoi le fait qu'il soit biaisé était peu important) pour que ce débat n'ait pas eu lieu d'être !!
On est d'accord : L'estimateur de la variance étant tout à fait correct (non biaisé, convergent, consistant, ..) on s'en sert sans problème, et quand on veut passer à l'écart type, on en prend la racine carrée.
Bien entendu, les approximations et défauts dus au calcul approché amènent à faire attention à la précision des résultats utilisés (comme toujours quand on fait du calcul approché).
Cordialement.
Bonne journée.
Cordialement.