Justification de la variance

Bonjour,

Je ne suis pas du tout un spécialiste des statistiques, mais je me tourne vers des experts pour trouver des éléments de réponse à une question qui me travaille : d'où vient la formule de la variance ? J'ai eu l'occasion de lire quelque part que le choix de la moyenne dans la formule aurait été justifié par Legendre qui aurait démontré que la valeur de la variance serait ainsi minimisée. Autant pour ce point : reste la formule en général, qui ne laisse pas de m'intriguer. Je rencontre au fil de mes lectures diverses justifications à l'élévation au carré notamment : pour les uns, ce serait un moyen de simplifier les calculs à une époque où les ordinateurs n'existaient pas ; pour d'autres, ce serait un moyen d'accorder d'autant plus de poids à l'écart à la moyenne que ce dernier est grand. Tout cela me paraît un peu confus, et pose plus généralement la question de l'origine de cette formule. Quelqu'un pourrait-il éclairer ma lanterne ?

Réponses

  • d'où vient la formule de la variance ?

    Bon, je ne te réponds pas sur le plan de l'histoire que je connais pas (et la variance je la connais à peine en plus lool)

    Mais la moyenne "bêtement" c'est "par quoi remplacer chaque donnée" de manière à avoir le même total mais avec toujours la même donnée.

    La variance est un peu plus psychanalytiquement mystérieuse, car elle réfère à tout plein de mondes parallèles :D : en fait pense à 2 données. Il faut que tu considères tes données comme vivant dans des mondes séparées et non pas le même monde. "Séparés" en fait, c'est "orthogonal". Même si on les dessine sur un papier, en fait il faudrait les dessiner dans un espace et mettre une donnée par dimension (bon t'imagine l'acrobatie mentale). Avec 2 données, ça te donne le carré de l'hypoténuse, ça te rappelle rien. Et dans le cas général, c'est pareil. Ca vient du théorème de Pythagore. L'écart-type te donne la longueur de l'hyper-hypoténuse".

    Par contre, pour que ça ait ce sens profond, il faut penser à une notion de variance à propos de répartitions dans des mondes parallèles (et même orthogonaux et qui n'interfèrent pas). Le réimporter (et que ça ait du sens) pour une liste de tailles d'individus dans une même population, franchement, c'est typique des stats (qui s'inspirent des probas) mais ça pose comme pétition de principe l'ultrahyper réincarnation (chaque individu de la population serait "une réincarnation" du même individu dans différents mondes, les individus pouvant être des hommes des chats ou des tables).

    Sinon, oui, vue son côté Pythagore, il se trouve (théorème) qu'il y a des phénomènes de minimums reliés à ça.
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • Bonjour.

    La variance est l'une des nombreuses mesures de dispersion possible. Elle était très naturelle pour les mathématiciens du dix-huitième et dix-neuvième siècles, très habitués à ce genre de calculs en mécanique (moments quadratiques, moment d'inertie,..). La formule vient probablement de là.
    Elle est restée et devenue centrale parce que :
    * Elle est simple à calculer;
    * Elle a de nombreuses propriétés mathématiques;
    * Elle caractérise certaines lois, comme la loi Normale, assez centrale en probabilités.

    Cordialement.
  • Bonjour,
    gerard0 écrivait:
    > Bonjour.
    >
    > La variance ....
    > ... est simple à calculer;

    Simple question à cent sous, comment fait une petite calculette ou un grand calculateur à la main pour calculer la variance ?
    Je crois que c'est effectivement là la réponse.
    Alors que le calcul d'un écart en valeur absolue demanderait le stockage de toutes les données, le calcul de la variance ne requiert que trois accumulateurs, si je me souviens bien :
    - le nombre d'échantillons,
    - la somme pondérée,
    - la somme des carrés pondérés.
    On arrête quand on veut et Koenig fait le reste.
  • Je répondrai peut-être partiellement à côté, mais :
    J'ai eu l'occasion de lire quelque part que le choix de la moyenne dans la formule aurait été justifié par Legendre qui aurait démontré que la valeur de la variance serait ainsi minimisée
    Ta phrase est assez mal tournée. Disons que la fonction $J(c) = \frac{1}{n} \sum_{i=1}^n (x_i-c)^2$ est minimale pour $c = \bar{X}$, ce qui est très facile à montrer. Et ce minimum vaut la variance empirique de $X$.
    Il s'agit simplement de trouver "le" point tel que la somme des carrés des distances entre toutes les valeurs $x_i$ et ce point soit minimale, et cette distance (ou encore cette inertie, en termes physiques) est la variance.

    La présence des carrés est effectivement très simple à comprendre : analytiquement, $x \mapsto x^2$ est dérivable en tout point et la formule de sa dérivée est « stable » sur tout $\mathbb{R}$, ce qui n'est pas le cas de $x \mapsto |x|$. Si notamment l'ami Gauss s'est amusé à travailler sur des « moindres carrés », c'était bien sûr en raison de cette qualité analytique. Par contre, lorsque tu dis que les carrés ont été introduits « pour donner plus d'importance aux valeurs loin de la moyenne », je dirai plus que c'est un effet indésirable qu'une raison de ce choix.

    Si tu veux te convaincre de la raison de la présence des carrés, prends plutôt la fonction $J(c) = \frac{1}{n} \sum_{i=1}^n |x_i-c|$ et tente de la minimiser. Tu tomberas sur la médiane, qui est donc le point tel que la somme des distances entre toutes les valeurs $x_i$ et ce point soit minimale. Mais tu verras surtout que c'est une autre paire de manches pour bosser avec ce genre de trucs, plutôt qu'avec les carrés des distances.

    Voili voilou.
  • Bonjour.

    Pour éclairer la question de MaxWeber et les réponses :
    " - Pourquoi fait-on ce calcul-ci et pas celui-là ?
    " - Parce qu'on sait le faire, contrairement à ce calcul-là."

    C'est la réalité des maths. Il y a de nombreuses choses qu'on fait, mais de plus nombreuses encore qu'on ne peut pas faire ou qu'on ne sait pas faire.

    Cordialement.
  • Si tu veux te convaincre de la raison de la présence des carrés, prends plutôt la fonction $J(c) = \frac{1}{n} \sum_{i=1}^n |x_i-c|$ et tente de la minimiser. Tu tomberas sur la médiane, qui est donc le point

    Si c'est vrai, ça m'impressionne (je n'ai pas vérifé)...
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • christophe chalons écrivait:
    > Si c'est vrai, ça m'impressionne (je n'ai pas
    > vérifé)...
    En effet, j'ai plus qu'un doute !
  • [edit : Ce message est très mal rédigé, et même faux (la fonction J n'est pas partout dérivable). Une preuve plus saine est donnée quelques messages plus loin.
    Merci Alain pour la correction qui rend plus lisible]

    Bonsoir.

    Soit $k$ le nombre des $x_i$ qui sont inférieurs à $c$ et $\ell$ le nombre de ceux qui sont égaux à $c$ :

    $n J(c) = \sum\limits_{i=1}^k (c- x_i) + \sum\limits_{i=k+l+1}^n ( x_i-c)$. La dérivée vaut $k -(n-k-l)=2k+l-n$.
    Si toutes les valeurs sont différentes, il est facile de voir que la dérivée change de signe en s'annulant soit pour la valeur centrale ($n$ impair) soit pour toute valeur située entre les deux valeurs centrale ($n$ pair).
    S'il y a des valeurs multiples, comme $nJ(c)$ est continue, il suffit de regarder pour les intervalles entre les valeurs, et on voit que la dérivée $(2k-n)$ change de signe pour la médiane (si elle est unique) ou est négative, puis nulle pour toute la classe médiane, puis positive.

    Cordialement
  • Bon faut que j'aille manger, mais je crois Gérard (je le sais prudent), donc je confirme, je suis impressionné et je vérifierai (y a quelques calculs à regarder en détails) ça après, mais c'est assez mystique comme réalité, franchement. (tu)

    Pour le coup, ça relèguerait presque la variance au rang des définitions odieusement conformistes.
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • Bonsoir Gérard
    La dérivée vaut k -(n-k-l)=2k+l-n ... il est facile de voir que la dérivée change de signe en s'annulant soit ...

    Pour moi, $2k+l-n$ est constant ! Comment la dérivée peut "changer de signe" ?
    En y regardant de plus près, j'ai compris que tu numérotais les $x_i$ par ordre croissant (c'est naturel), et que la fonction $c\mapsto J(c)$ étant affine par morceaux, tu appelles "dérivée" : la pente de la droite du morceau $I_k = [x_k;x_{k+\ell}[ $, et cette pente vaut $2k+\ell-n$.
    Après, ta discussion selon l'intervalle $I_k$ est beaucoup plus compréhensible.
    Alain

    PS : Excuse-moi d'avoir fait le boulet de service, pour mieux comprendre ton propos. :D
  • Effectivement, AD,

    mon explication était loin d'être claire !
    J'ai essayé de trouver une justification à cette propriété que je connais depuis au moins 20 ans, dont j'ai vu des preuves (différentes de ce que j'ai écrit). Mais bien évidemment, la dérivée n'a de sens que pour c différent des $x_i$ et maintenant que ça commence à s'éclaircir, je vois qu'il suffisait de dire que la courbe de $nJ(c)$ est affine par morceaux et décroît jusqu'à la valeur médiane (ou celle immédiatement avant si un cumul des effectifs de classes peut faire $50 \%$) et croît ensuite (ou à partir de la valeur suivante).

    Cordialement.
  • Figures initiales rectifiées... J'avais pris des distances sans diviser par l'effectif, ce que j'ai corrigé maintenant. Le principe est le même mais autant évidemment directement tomber sur la variance et sur l'écart absolu médian... Je le précise pour ceux qui aurait vu la version originale de mon message...


    Bonjour,
    Quelques petites figures pour éclairer le discours de Gérard, corrigé par AD... c'est la seule prétention de mon message car l'essentiel a été dit...

    L'idée est de remplacer une série de valeurs $(x_i)$ par une seule, qui la résumerait, qui serait la plus proche en quelque sorte de la série initiale.
    Tout dépend de la "distance" qu'on envisage pour mesurer l'éloignement ou la proximité d'un réel avec la série de valeurs...

    Si on pose $d((x_i),x)= \frac {1} {n} \sum_{k=1}^n |x_i-x|$, on cherche la valeur de $x$ qui minimise cette fonction. C'est bien la médiane dans ce cas...
    Deux cas à envisager...
    Tout d'abord avec un nombre impair de valeurs

    16451
    16449
    16450
  • Bon,

    j'essaie d'être plus sérieux dans la rédaction de la preuve. On note m la médiane des n valeurs $x_1$, $x_2$, $x_3$, ...$x_n$, supposées rangées dans l'ordre croissant. Si n est impair (cas 1), alors $\displaystyle m=x_{\frac{n+1} 2}$. Si n est pair, alors, si $\displaystyle x_{\frac{n} 2}=x_{\frac{n} 2+1}$ (cas 2) on a $\displaystyle m=x_{\frac{n} 2}$, et si $\displaystyle x_{\frac{n} 2}<x_{\frac{n} 2+1}$, m est n'importe quel nombre choisi dans $\displaystyle [ x_{\frac{n} 2};x_{\frac{n} 2+1}]$ (cas 3).

    On considère ensuite la fonction $\displaystyle J(c) = \frac{1}{n} \sum_{i=1}^n \vert x_i-c\vert$ et comme on veut la minimiser, on prend $\displaystyle K(c) =n J(c) = \sum_{i=1}^n \vert x_i-c\vert$.
    Soit $ k$ le nombre des $ x_i$ qui sont inférieurs à $ c$ et $ \ell$ le nombre de ceux qui sont égaux à $ c$ :
    $\displaystyle K(c) = \sum\limits_{i=1}^k (c- x_i) + \sum\limits_{i=k+l+1}^n ( x_i-c)$. C'est une fonction affine par morceaux, dérivable lorsque c n'est pas un $x_i$ ($ \ell=0$). La dérivée vaut $ k -(n-k)=2k-n$.
    Si c<m, alors :
    cas 1 : $\displaystyle x_{\frac{n+1} 2}$, $\displaystyle x_{\frac{n+1} 2+1}$, $\displaystyle x_{\frac{n+1} 2+2}$, ...$x_n$ sont tous supérieurs à c, donc $k <\frac n 2$ et la dérivée est négative.
    cas 2 : $\displaystyle x_{\frac{n} 2}$,$\displaystyle x_{\frac{n} 2+1}$, ... $x_n$ sont tous supérieurs à c, donc $k <\frac n 2$ et la dérivée est négative.
    cas 3 : Si $\displaystyle c < x_{\frac{n} 2}$, on est dans la même configuration que pour le cas 2 et la dérivée est négative, et si $\displaystyle c \geq x_{\frac{n} 2}$ la dérivée est nulle (c est entre $ x_{\frac{n} 2}$ et $ x_{\frac{n} 2+1}$).
    On fait le même raisonnement pour $c>m$.
    Finalement, la fonction K, continue, est décroissante sur $]-\infty, m[$ et croissante sur $]m, +\infty[$. Elle est bien minimale pour $c=m$.

    Cordialement.
  • Merci Christian,
    Je crois que j'ai une vision plus claire sur l'origine de mes doutes :
    "on cherche la valeur de x qui minimise cette fonction. C'est bien la médiane dans ce cas..."
    "... le minimum est atteint pour une infinité de valeurs; on convient de prendre la moyenne des deux valeurs extrèmes du segment horizontal..."
    Si j'ai bien compris, corrige moi si je me trompe, la médiane est un minimum mais pas forcément le minimum.
    Cordialement.
  • Braun,

    effectivement, la notion de médiane statistique n'est pas parfaitement définie ... tout simplement parce que ça n'interpelle pas vraiment le statisticien descriptif : Les séries véritablement utilisées ont des effectifs importants et soit de nombreuses valeurs, soit des classes de valeurs centrales plutôt conséquentes. Le cas que j'ai noté 3, pour lequel la médiane n'est pas spécifiquement définie est rare, et soit sans intérêt (savoir que la médiane des salaires en France est 1893,27 € ou 1893,28 € n'a pas un gros intérêt), soit fait perdre l'intérêt de la médiane ("La moitié des foyers de la ville de X comporte au plus un enfant, l'autre moitié en a au moins 2" est plus utile que de dire "médiane 1,5").
    Cette notion de médiane est très "pratico-pratique", et peu mathématisée par manque d'utilité de mathématiser plus. Pour les grosses séries actuelles, avec un grand nombre de valeurs, souvent assez proches, on emploie souvent dans ce cas 3 la valeur $ \displaystyle x_{\frac{n} 2}$ comme médiane plutôt que la moyenne avec la suivante, pour être sur qu'il s'agit d'une valeur qui a un sens.

    Cordialement.
  • Oui Braun, c'est le minimum lorsque l'effectif est impair, c'est un minimum lorsque l'effectif est pair : on retrouve d'ailleurs les problèmes de la définition, mais avec un éclairage disons analytique...
    Note bien que cela peut être le minimum, quand on est amené à faire la moyenne entre 14 et 14... voir l'exemple ci-dessous, on retrouve une fonction qui a un seul minimum bien que l'effectif soit pair.

    16455
  • Et bien merci, vous mâchez le travail aux lecteurs, c'est sympa.
    Aide les autres comme toi-même car ils sont toi, ils sont vraiment toi
  • Braun écrivait:
    > christophe chalons écrivait:
    >
    >
    > > Si c'est vrai, ça m'impressionne (je n'ai pas
    > > vérifé)...
    > En effet, j'ai plus qu'un doute !

    Je pensais que cet état de fait était connu de tous... La moyenne est le machin qui minimise la somme des carrés des écarts, la médiane est le (un ?) machin qui minimise la somme des écarts. C'est la définition traditionnelle.
    A partir de là, effectivement, la variance est quelque chose de très "conformiste", ou en tout cas d'extrêmement naturel.
  • Milamber,

    ta réaction est une réaction de "spécialiste". Surpris que d'autres ignorent ce qu'il connaît parfaitement. J'y suis d'autant plus sensible que je viens d'en être victime ("Tu ne fais pas beaucoup d'efforts" en réponse à une question de signification).
    Les statistiques élémentaires sont un monde inconnu de nombreux matheux, même jeunes.

    De plus "la médiane est la machin qui minimise la somme des écarts" est un peu faux car il peut ne pas y avoir unicité. Et ça ça gêne beaucoup certains.

    Cordialement.
  • Merci pour vos explications.

    Pour ceux que cela intéresse, je suis tombé sur le Journal Electronique d'Histoire des Probabilités où l'on trouve un article de Michel Armatte offrant une perspective historique sur la notion de variabilité.
  • Bonjour
    Il y a plusieurs moyennes : arith, géom ... comme plusieurs écarts.... chacun peut en trouver d'autres et élaborer des conséquences statistiques qui rejoindrons celles connues. Mais elles seront plus longues à calculer ainsi que leurs con séquences. C'est ce qui s'est passé. Le 1er écart proposé a été arith mais le signe + ou - a été gênant on a alors élevé au carré pour n'avoir que des écarts >0, et ainsi de suite.
    Cordialement
    Koniev
Connectez-vous ou Inscrivez-vous pour répondre.