Notion de dispersion

Bonjour à toutes et à tous,

Je réfléchissais à la notion de dispersion. Selon ce que j'ai pu lire, la plupart des personnes utilisent, afin d'estimer la dispersion d'un ensemble de valeurs (autour d'une moyenne) l'écart-type. D'autres personnes préfèreront utiliser le coefficient de variation (CDV), qui est plus facile à interpréter puisqu'il s'exprime sans unité et en général en pourcentage.

Or, je me suis rendu compte que ces deux notions de dispersion dépendent du nombre d'éléments qui constituent mon ensemble. Ainsi, si j'ai un ensemble plus grand, l'écart-type et le CDV le seront aussi et il devient difficile de généraliser cette notion de dispersion.
Ainsi, je me suis demandé pourquoi n'utilise-t-on pas une méthode de calcul qui ne dépendrait plus du nombre d'éléments de mon ensemble.

Le CDV est calculé de la façon suivante : $\displaystyle \frac{\sqrt{\frac{1}{n} \sum_{i=1}^{n}(x_i - \frac{1}{n} \sum_{j=1}^{n}x_j)^2}} {\frac{1}{n}\sum_{j=1}^{n}x_j}$
Je me demandais ce que cela donnerait si maintenant j'utilisais la formule suivante : $\displaystyle \frac{\sqrt{\sum_{i=1}^{n}(x_i - \frac{1}{n} \sum_{j=1}^{n}x_j)^2}} {\sum_{j=1}^{n}x_j}$
Selon vous, cette notion de dispersion est-elle pertinente ? Et pourquoi ?
J'attends vos commentaires.

Mickaël

Réponses

  • Bonjour Mickaël.

    Ta deuxième formule pose problème, car contrairement à ce que tu espères, le résultat dépend maintenant fortement du nombre de valeurs.
    Par exemple avec les valeurs 1,1,2,2 il donne 1/6 et avec 1,1,1,1,2,2,2,2 on obtient racine(2)/12. En fait, ta formule n'est pas homogène sur le nombre de valeurs.
    Deuxième problème : les constituants du CDV ont une signification (simple pour la moyenne, scientifique pour l'écart type, bien relié à des notions probabilistes). La principale signification de ton coefficient est ... d'être le CDV multiplié par racine(n).

    Enfin il faut savoir que le CDV n'a en général pas de signification. Il n'est utile que pour les séries positives (et il est souvent pratique de se référer à des variables de moyenne nulle).

    Cordialement
  • Bonjour Gérard,

    Avant tout, merci pour ta réponse claire et rapide ainsi que pour le splendide contre exemple. Je me doutais que ma formule ne convenait pas (Sinon, quelqu'un l'aurait déjà présenté avant moi), je cherchais juste à comprendre sa signification. Au final, comme tu le précises fort bien en effet; elle ne correspond qu'au CDV multiplié par un facteur dépendant de n (C'était justement là l'idée de base afin de se débarrasser du facteur "nombre d'élément de mon ensemble")

    Je m'étais en fait intéressé au CDV car je suis sur un problème où je compare la position de points dans l'espace à deux instants t0 et t1. Je calculais la distance euclidienne parcourue par chaque point (donc, uniquement des valeurs appartenant à l'ensemble R+). Enfin, je cherchais à voir si on pouvait parler d'une dispersion significative de l'ensemble des distances ainsi calculées.
    Or, selon le cas étudié (le nombre de points dans l'espace n'était pas toujours le même), j'obtenais des valeurs du CDV assez étranges (Sachant qu'à partir d'un graphique, je pouvais estimer "subjectivement" si certains points bougeaient significativement).

    Encore merci,
    Mickaël
  • Je m'intéresse à cette notion de dispersion, mais à un niveau beaucoup plus bas que celui exposé dans ce fil. Je n'ai jamais suivi de cours de statistiques de ma vie, donc j'aimerais quelques précisions. Ma question est la suivante: quelle définition compréhensible en collège de la notion de "dispersion" peut-on donner ?

    Du moins tout ce que j'ai lu reste assez vague, peu clair, on parle d'indicateurs de dispersion, et non de dispersion seule. La notion de dispersion n'a-t-elle de sens que relativement à un indicateur ?

    Désolé si mes questions paraissent naïves ou tout simplement bêbêtes :)
  • Un indicateur de la régularité d'une fonction est, par exemple, la continuité.
    Un indicateur de dispersion est, par exemple, l'écart-type.
  • Bonjour
    Comme le dit Gérard l'a dit l'écart-type n'est jamais pris en faute et surtout il s'appuie sur des considérations probabilistes théoriques. Comparer des moyennes, des pourcentages,... demande toujours les effectifs.
    Dans mon esprit la continuité est une propriété : une fonction est oui ou non continue (selon une condition : en tout point.. , image réciproque d'un ouvert est un ouvert,...).
    L'écart-type est un nombre qui comme la moyenne ou le mode (souvent usité par les Anglo-saxons) a la même dimension que les nombres de la suite qu'on étudie. Par exemple: 2 000 notes sont étudiées, leur moyenne est 11.5 (sur 20) leur écart-type est 1.5 cela veut dire que 95 pour 100 des notes sont comprises sensiblement entre 11.5 -(1.5 x 2) = 8.5 et 11.5 + (1.5 x 2) = 14.5.
    Personnellement comme à beaucoup d'autres, moyenne, mode et écart-type me suffisent.
    Cordialement
    Koniev
  • Bonjour Toto.le.zéro.

    En collège, donner une "définition" de la dispersion me semble assez malsain. D'ailleurs, les statisticiens ne la définissent pas : Ils la mesurent, l'estiment ou essaient de s'en abstraire. Par contre, faire ressentir l'idée de "dispersion statistique" (par exemple avec les tailles des communes du département, en superficie, et en population) et de "dispersion probabiliste" (par exemple avec le lancer de deux dés et le total des faces, ou avec le nombre de "pile" quand on lance 10 pièces) est très formateur de l'esprit des mathématiques actuelles.
    La vraie difficulté est que l'indicateur le plus utilisé est l'un des moins évidents. L'étendue, l'interquartile, l'écart absolu moyen sont des indicateurs assez faciles à comprendre, mais mathématiquement de peu d'intérêt (jusqu'à aujourd'hui). L'écart type s'est imposé, mais il n'a pas de signification simple. D'ailleurs, les statisticiens l'utilisent peu, la variance a de meilleurs propriétés.

    Cordialement
  • Tout d'abord merci à RAJ, Koniev et GERARD pour leurs précisions.

    GERARD: En fait, je n'ai jamais suivi un seul cours de statistiques de ma vie, et je me retrouve à les enseigner aujourd'hui, donc je me suis dit que ce serait bien si je savais de quoi je parle :D La notion de dispersion est au programme de 3ème, du moins "une première approche". Bien sûr, on ne parle pas du tout d'écart-type dans cette classe, mais simplement de l'étendue d'une série. Donc, puisqu'on est censé donner une première approche de cette notion de dispersion, je me suis d'abord demander ce que signifiait précisément le terme "dispersion" (au sens mathématique, bien entendu).

    Dans les programmes, il est dit:
    Le recours aux quartiles
    permet de préciser la
    dispersion d’une série par
    rapport à la seule notion
    d’étendue.

    Je croyais que les quartiles étaient des indicateurs de position ? Je comprends ce qu'ils veulent dire cela dit
  • Toto le zéro a écrit:
    GERARD: En fait, je n'ai jamais suivi un seul cours de statistiques de ma vie, et je me retrouve à les enseigner aujourd'hui.
    Je connais ça, je suis dans le même cas. Très exactement, je n'ai eu dans mes études (collège, lycée, fac) aucun cours de statistiques ni même de probabilités. mais j'ai eu à enseigner les stats en seconde, puis en BTS, et les probas en BTS puis en terminale C (donc niveau début actuel de prépa). mais ça ne pose pas de problème : On lit des bouquins sur le sujet, et comme ils se contredisent parfois, on se fait sa propre opinion, surtout en stats, où le bon sens est primordial. La plupart des notions de statistiques descriptives sont des quasi évidences pour un matheux.
    Mais oublie vite l'habitude malsaine du matheux bien formé de commencer par poser des définitions. Les stats (et une partie des probas) sont faites pour traiter des problèmes concrets, et les questions sont posées de cette façon concrète. De même que dans les "problèmes" à l'ancienne (un peu trop abandonnés aujourd'hui, ce qui fait que les élèves pensent que "les maths, ça sert à rien"), il y a une partie mathématisation (modélisation, plus exactement), que les matheux ne doivent pas abandonner aux autres disciplines, sous peine d'être disqualifiés (c'est déjà le cas dans la plupart des facs, on fait faire les cours de maths à des physiciens, mécaniciens ou autres économistes; ils sont bien plus performants que les MCF de maths).
    Par contre, choisis de vrais problèmes concrets (il y en a plein), et surtout évite les exercices faussement réalistes. Les élèves ne sont pas dupes, ils voient vite que c'est "pour faire marcher le cours", ce qui les confirme dans l'opinion "les maths, ça sert à rien".
    Le recours aux quartiles permet de préciser la dispersion d’une série par rapport à la seule notion
    d’étendue.
    Effectivement, les quartiles sont des caractéristiques de position, mais Q3-Q1 est une mesure de dispersion (on évalue l'étendue de la moitié centrale de la population), analogue à la méthode des jurys de patinage (on élimine sur les 10 notes la plus faible et la plus élevée). On appelle cet intervalle l'interquartile.

    Cordialement.

    NB : Les "définitions" de médiane et quartiles de nombreux bouquins sont à la limite de l'imposture. Sous prétexte de "simplifier", on oublie que l'élève est intelligent et capable de comprendre l'utilité de la notion. D'ailleurs, la valeur exacte de la médiane ou du quartile est parfois inexistante, et ce qui compte, c'est l'interprétation qu'on peut en faire.
  • Bonjour
    Soient les 2 suites : 16, 10 et 4 et d'autre part 11, 10 et 9
    La moyenne est dans les 2 suites 10
    Par contre l'écart-type est 4.89 et 0.816 ce qui montre bien que les valeurs de la 1ère sont plus dispersées que dans la 2ème..L'écart-type est une mesure de la dispersion ou si on veut une estimation. Evidemment dans cet exemple le calcul est inutile. L'écart-type a une grande utilité par la suite.
    Cordialement
    Koniev
  • Merci Koniev et Gérard, pour ces réponses

    je commence à prendre goût au stats, qui l'eut cru ?
  • Bonjour à tous,

    J'ai lu il y a très longtemps quelques cours de stats et de proba, dont j'ai saisi à l'époque une partie du sens. Je suis face aujourd'hui à un problème concret :

    * j'étudie une population de 120 magasins ;

    * sur ces 120 magasins, je dispose de deux types de variables tout à fait différents :

    - une première série d'environ 60 variables, mesurées chacune par des grandeurs, des taux, par exemple le % de collaborateurs en CDI
    - une seconde série d'environ 180 variables, qui sont des réponses à des questionnaires d'opinion interne, que je sais
    transformer sans souci en "notes" sur 20

    Mon premier problème est d'éliminer les variables inutiles, en fonction du principe "trop d'information tue l'information" : j'ai utilisé pour ce faire une ACP (effectuée par un collaborateur beaucoup plus compétent que moi), je garde les variables attachées aux cinq premiers axes, qui me restituent 60 % de l'info, le dernier de ces axes n'expliquant déjà plus que 5 % (sur le premier bloc des 60 variables ; sur le second, l'ACP est en cours).

    Mais en réalité plus que des variables inutiles, je cherche des variables discriminantes : ne dois je pas me contenter de les classer sur un indicateur qui serait [ écart type / moyenne ], et virer celles pour lesquelles ce ratio est plutôt faible ? Ce qui ne signifie pas qu'elles sont inutiles dans le cadre d'un benchmark avec l'extérieur, mais elles sont inutiles pour mettre en place des projets spécifiques magasins puisqu'aussi bien, si elles sont peu dispersées, c'est parce qu'elles sont portées par un effet "système" où le degré d'autonomie de mes magasins ne joue pas.

    Ou bien faut - il imaginer un autre tri préalable complémentaire basé sur une analyse de corrélation une à une où :

    - je regarde les taux de corrélation supérieur à par exemple à 0,7 ;
    - j'élimine éventuellement une des deux variables concernées si il existe [epar ma connaissance du métier ] une liaison fonctionnelle, ou
    simplement logique entre les deux, sinon je garde les deux.

    Autrement dit, comment utiliser intellogemment la matrice des corrélations croisées ?

    Par ailleurs, j'ai envie de voir en quoi le bloc quantitatif est relié au bloc qualitatif ; en clair y - a - il une corrélation forte entre le bloc des 60 mesures "dures", quantitatives, et le bloc du sondage d'opinion ? Quelle méthode de stat multidimensionnelle est la plus convenable pour faire celà ?

    Bien à Vous
    Claude Vannier
Connectez-vous ou Inscrivez-vous pour répondre.