Définition de la médiane en statistiques

Bonjour,
Voilà, je me pose une question sur une "bonne" définition de la médiane d'une série statistique.
Je lis dans un manuel : "La médiane d'une série statistique, notée Me, est le nombre tel que :
50% au moins des individus ont une valeur du caractère inférieur ou égale à ce nombre
et 50% au moins des individus ont une valeur supérieure ou égale à ce nombre.

Ce qui me gène, c'est l'article défini devant "médiane" et "nombre".

Si on prend la série 1-1-2-4-5-5 , alors toute valeur de l'intervalle [2,4] convient ?

Ce même manuel explique un peu plus loin de prendre, en cas d'effectif pair de la série la moyenne des deux valeurs du milieu. Ce qui donnerait bien une valeur unique.

Savez-vous s'il existe une définition "officielle" de la médiane ? Ou vaut-il mieux définir " médiane" comme "tout nombre qui vérifie etc..".

Merci d'avance de vos réponses.

Réponses

  • bonjour estelle,
    s'il s'agit d'une série statistique discrète comme dans ton exemple (c'est-à-dire où on connaît exactement la valeur du caractère pour {\it chaque} individu), on classe les individus par ordre croissant des valeurs du caractère, et la valeur médiane est alors :
    - la valeur de l'individu (ou des individus, le plus souvent) classé en position $n$ si la population étudiée a pour effectif $2n+1$ (entier impair), c'est-à-dire classé exactement "au milieu".
    - si la population étudiée a pour effectif $2n$ (entier pair), {\it l'usage} veut qu'on prenne la moyenne des valeurs des individus classés en positions $n$ et $n+1$ (ce qui revient à "inventer" un individu fictif ayant une valeur fictive)
    Ce dernier cas est celui de ton exemple où la médiane est $\frac{2+4}{2}=3$ (si du moins chaque valeur de ta liste correspond à un seul individu) : la définition est donc respectée, puisque tu as 3 individus (50% de l'effectif total) ayant une valeur inférieure ou égale à la médiane 3, et 3 autres aynat une valeur supérieure ou égale.

    Maintenant, s'il s'agit d'une série continue (où les valeurs sont regroupées en intervalles qu'on appelle des classes, et donc où on ne connaît pas la valeur exacte de chaque individu mais l'intervalle dans lequel elle se trouve), on procède alors par valeur approchée selon l'hypothèse que l'on fait sur la distribution des valeurs dans chaque classe. Pour le calcul de la médiane, l'hypothèse la plus courante est celle de la répartition uniforme des valeurs dans chaque classe : une valeur théorique de la médiane s'obtient par interpolation linéaire.
  • Dans votre exemple, la médiane pourrait être n'importe quel nombre entre 2 et 4. Le centre 3 est la valeur la plus simple qui se présente à l'esprit.
    Il y a souvent des difficultés à définir la médiane (et les quartiles, déciles etc.) dans le cas d'une série discrète, lorsque des valeurs se répètent. Ces problèmes disparaissent dans le cas d'une série continue (avec répartition en classes).
  • Aleg a utilisé le symbole maudit.

    [Effectivement en LaTeX il faut banaliser le % sous la forme \% . AD]
  • ma réponse a été tronquée. voici la suite...:
    .. (50 % de l'effectif total) ayant une valeur inférieure ou égale à 3, et 3 individus ayant une valeur supériure ou égale à 3.
    Lorsque la série est continue (c'est-à-dire que les valeurs des individus ne sont pas connues exactement mais qu'elles sont situées dans des intervalles appelés classes), on calcule en général une valeur théorique de la médiane en faisant l'hypothèse que la répartition des valeurs à l'intérieur de chaque classe est uniforme, ce qui permet de calculer la médiane par une simple interpolation linéaire.
  • Il me semble quand même qu'il y a une définition "officielle" : une médiane $m$ de $X$ est un réel tel que $P(X \geq m) \geq 1/2$ et $P(X \leq m) \leq 1/2$, ou de manière équivalente, si $X$ est une va intégrable, une médiane $m$ est un réel minimisant la fonction $a \mapsto E(|X-a|)$.

    Si on considère une série statistique dont on cherche une médiane, cela revient à chercher une médiane de $X$ de loi $P(X=x_i)=n_i/n$ où $n_i$ est le nombre d'occurence de la valeur $x_i$ dans la série de taille $n$. Pas de problème d'intégrabilité, et on retrouve facilement, en écrivant $E(|X-a|)$ sous la forme d'une somme et en la dérivant sur les intervalles $[x_i, x_{i+1}]$, les conclusions données par aleg et Richard.

    A moins que je ne me fourvoies grandement.
  • Bonsoir Kuja. J'ai un doute sur votre définition de la médiane. Si je jette un dé et si X est le résultat, on a:
    P(X>=1)=1>=1/2 et P(X<=1)=1/6<=1/2, donc 1 serait une médiane?
  • Bonsoir RAJ, il y a effectivement une inégalité dans le mauvais sens.
    Je modifie ceci tout de suite.
  • Il me semble quand même qu'il y a une définition "officielle" : une médiane $m$ de $X$ est un réel tel que $P(X \geq m) \geq 1/2$ et $P(X \leq m) \geq 1/2$, ou de manière équivalente, si $X$ est une va intégrable, une médiane $m$ est un réel minimisant la fonction $a \mapsto E(|X-a|)$.

    Si on considère une série statistique dont on cherche une médiane, cela revient à chercher une médiane de $X$ de loi $P(X=x_i)=n_i/n$ où $n_i$ est le nombre d'occurence de la valeur $x_i$ dans la série de taille $n$. Pas de problème d'intégrabilité, et on retrouve facilement, en écrivant $E(|X-a|)$ sous la forme d'une somme et en la dérivant sur les intervalles $[x_i, x_{i+1}]$, les conclusions données par aleg et Richard.

    A moins que je ne me fourvoies grandement.
  • Ah! les miracles du latex.

    Malgré tout, je n'ai jamais été convaincu par la définition de la médiane pour les séries discrètes lorsque des valeurs se répètent. Exemple:
    la série statistique 1,1,1,1,2 (ou la v.a. qui prend la valeur 1 avec la probabilité 0,8 et la valeur 2 avec la probabilité 0,2). On peut dire que médiane =1, mais je ne trouve pas cela très concluant, dans la mesure où la médiane devrait séparer la population en deux parties égales , mais dans ce cas il est beaucoup plus fréquent (ou probable) d'obtenir 1 que 2.
  • Bonjour,

    Mis à part l'indication qualitative qu'elle donne, à quoi sert la médiane? (ce n'est pas une provocation, mais une envie de savoir)

    @+
  • merci RAJ pour le symbole maudit : je me suis fait avoir comme un bleu...

    Quant à votre dernière remarque sur la médiane, je suis à 100 $\%$ (ouf !) d'accord : à mon sens, la médiane n'a aucun intérêt pour une série discrète : en pratique, même sur une population d'effectif raisonnable, il y a tellement d'ex-aequo (les valeurs répétées) que cet indicateur perd toute signification (exemple : les notes d'une promo d'étudiants à un examen).

    Par contre, pour une série continue sur un effectif important, la médiane (qui est alors "théorique") peut être très significative : par exemple, la notion de salaire médian me paraît beaucoup plus concrète que la notion de salaire moyen.
  • Tout à fait d'accord, aleg. Avec mes étudiants, je passe rapidement sur le cas discret, en leur disant carrément qu'on ne cherche pas à la définir dans le cas ou trop de valeurs sont répétées.

    Dans le cas continu (classes), on peut y arriver de manière sûre par interpolation linéaire.

    De plus, il est clair que la médiane est plus "robuste" (moins sensible aux valeurs aberrantes) que la moyenne. Je donne souvent l'exemple suivant: dans un immeuble habitent 5 familles dont les revenus mensuels sont, en euros: 1000,1100,1200,1300,1400. La moyenne et la médiane sont égales à 1200. Si une 6ème famille, dont le revenu mensuel est de 10 000 € vient habiter l'immeuble, la médiane devient 1250, alors que la moyenne passe à 2667 €. La médiane est donc beaucoup plus représentative de l'immeuble que la moyenne.

    Les sociologues pourront rétorquer qu'une famille à 10 000 € ne va pas habiter dans un immeuble de prolos.
  • Bonjour,

    Ah moi je demande à ce que la médiane soit une valeur de caractère quand la série est discrète (ce que n'est pas la moyenne). Pour moi, c'est la première valeur dont la fréquence cumulée dépasse 0,5. Et ainsi on a au moins la moitié de la population qui a une valeur inférieure à la médiane et au moins la moitié qui a une valeur supérieure. Apparement, ce n'est pas universel.

    Allez au boulot et bonne journée à tous ....
  • Toutes vos réflexions me confirment dans l'idée que "la définition de la médiane" n'existe pas en statistiques. Tout au plus y a-t-il accord sur le calcul d'un nombre conventionnel dans le cas continu. Par contre, en probas, la médiane est définissable clairement.
    Mais c'est qu'en probas, on maîtrise la situation (bien qu'elle soit définie par une part de hasard); alors qu'en statistiques, on a réuni des données qui n'ont d'intérêt que si :
    * Elles sont nombreuses (des séries de 6 valeurs ne demandent pas un calcul de médiane).
    * Elles sont diversifiées (Si le caractère n'a que 2 ou trois modalités, la réflexion est bien pauvre).
    Dans ce cas, la médiane est donnée pratiquement par la même valeur quelles que soient les méthodes, sauf s'il y a un "trou" au milieu des données, ce qui est plus important à voir que la valeur de la médiane : Dire "la médiane est 1200" à la place de "la moitié des valeurs est inférieure à 1000, l'autre moitié supérieurs à 1400" est confondre un nombre avec sa signification utile.

    Comme toujours, en stats : Etre raisonnable!

    Cordialement
  • Merci beaucoup de vos réponses.
    En fait le problème vient peut-être de ce que les exercices scolaires sont très simplifiés par rapport aux problèmes quotidiens des statisticiens.

    Alors j'hésite entre deux manières d'exposer les choses à mes élèves de lycée :

    La première manière serait :

    Def : On appelle médiane d'une série statistique tout nombre, noté Me, tel que 50% au moins des individus ont une valeur inférieure ou égale à ce nombre et 50% au moins des individus ont une valeur supérieure ou égale à ce nombre.

    Méthode pratique de détermination : Là j'expliquerais que l'usage est de prendre la moyenne des valeurs centrales si l'effectif est pair, la valeur centrale s'il est impair, de supposer l'équirépartition en cas de série continue.

    La difficulté est que si un élève donne pour médiane de la série 1- 2 - 4 - 5 , la valeur 2, il a bon. Et là je me pose une question : est-ce qu'au bac, on lui compte juste ?

    Une deuxième manière serait de prendre la définition d'un manuel de 1ère S (Terracher)

    Définition : On appelle médiane d'une série statistique X (notation : Med X), la valeur centrale de la série (N impair) ou la demi-somme des deux valeurs centrales (N pair).

    Propriété : il y a 50% au moins des données inférieures ou égales à la médiane et 50% au moins des données supérieures ou égales à la médiane.

    Le défaut de cette manière est que je n'ai trouvé cette définition que dans ce livre.

    Qu'est-ce qui vous semble le mieux ? Merci d'avance.
  • la définition du Terracher me semble parfaitement acceptable : c'est celle que j'avais rappelée plus haut.
    Il n'est pas exact de dire que cette définition ne se trouve que dans ce livre. On la trouve aussi par exemple dans le cours de proba-stat de Roque-Guégauand-Leboeuf pour prépas HEC, et, comme il me semble que cette définition est sans doute la plus répandue, on doit aussi la trouver dans une foule d'autres ouvrages.
  • L'exemple de RAJ est très parlant. Je comprends maintenant mieux pourquoi on peut préférer la médianne à la moyenne. Cela dit, si je comprends bien, la médianne n'est d'utilité dans aucune étude quantitative?

    @+
  • Estelle, une chose me surprends : Pourquoi se référer au bac pour les définitions mathématiques ? Il est évident que, si un sujet de bac demande une médiane, elle doit être obtenue de façon unique (série discrète avec un nombre impair de valeurs). Et même, elle ne doit pas être différente si on la calcule à la main ou avec une calculette.
    En fait, je ne vois pas l'intérêt de ce genre de question dans une épreuve de bac. Par contre, l'interprétation concrète de la médiane est bien plus significative (et difficile pour les élèves).

    Cordialement
  • La réponse est toute simple Gérard : parceque je prépare des élèves au bac ... :-).
    Je trouve l'exemple de Richard André-Jeannin formidable. Merci je l'utiliserai.

    Bien sûr je trouve tout à fait essentiel d'expliquer aux élèves ce qu'est une médiane, une moyenne, un écart-type etc...et ce que cela donne (et ne donne pas) comme information sur une série statistique. Je crois cependant que ce n'est pas incompatible avec une définition précise de chacune de ces notions... même si cela n'est peut-être qu'une préoccupation très scolaire. Cela n'empêche pas d'expliquer aux élèves que les définitions diffèrent selon les livres.

    Aleg je ne savais pas que la définition du Terracher était la plus courante. Dans les manuels du secondaire que j'ai consultés, c'est plus souvent une méthode de détermination qu'une définition ...

    En tous cas merci beaucoup de vos idées sur la question.

    je sais toujours pas ce que je vais donner comme définition... :-)

    Cordialement.
  • "La réponse est toute simple Gérard : parceque je prépare des élèves au bac ..."
    merci de cette réponse. Mais c'est celle qui fait que je reçois parfois des étudiants qui ont eu de bonnes notes au bac, mais qui ne maîtrisent pas ou peu les bases : calcul algébrique simple, dérivées (dériver (ln x)² est un vrai problème), etc.
    Mais je connais cette pression du bac (j'ai enseigné 20 ans en lycée). Cependant, les réussites ont toujours été de la partie lorsque je me suis appliqué à donner du sens aux notions, en leur disant : "si vous comprenez, vous ferez bien le jous du bac". En particulier, je donnais toujours un sujet de probas de bac C, qui permettait 2 interprétations. Et je leur apprenait à rédiger en précisant comment se traduit le sujet, et comment on peut alors le traiter.

    Par contre, "une définition précise" de la médiane se trouve dans la norme AFNOR de statistique. Est-elle utile à des lycéens ? Et la définition précise du mode (ou même de la classe modale) pose encore d'autres problèmes...

    Cordialement
  • Salut tout le monde, Je pense que pour trouver la solution a tout tes problemes c'est de tout simplement de regarder des vidéos sur la efintion d'une médiane ( il faut voir la pratique d'une médiane). Car en regardant une vidéo ton cerveau va acquerir le sens de ce mot et la pratique d'une médiane plus facilement.Cela a etait prouver scientifiquement en 2008 par le professeur Robert De Varsovie.Et cette technique marche pour toutes autres choses quel que soit le thème.Je te conseille d'apliquer ma technique.Et je te souhaite une bonne réussite dans tout ce que tu voudras entreprendre.

    Je m'adresse a tout le monde!!!

    Et n'oublier pas la clé de la reussite c'est le travail !!!
  • Bonsoir,

    Le travail sur l'orthographe laisse encore quelque peu à désirer.
  • C'est bizarre ce besoin de donner des conseils 6 ans après !
    Des génies qui ne savent pas lire, vous y croyez ?
Connectez-vous ou Inscrivez-vous pour répondre.