Interprétation de l'écart type.
Bonjour,
pour mon travail de thèse je suis en train d'interpréter des données statistiques d'après un recensement d'associations.
À partir d'un échantillon (85 asso's), je cherche à estimer une moyenne de l'ensemble des pratiquants.
J'ai donc 1222 membres répartis sur 85 structures et un milieu comptant 1157 entités.
La moyenne est donc de 14 membres par structure, ce qui me donne une estimation moyenne de 16634 membres, établie d'après un échantillon de 7,3 % des structures recensées (en fait les seules pour lesquelles j'ai des données concernant le nombre de membres).
Je voudrais aller plus loin dans cette estimation pour montrer sa variation potentielle car le nombre de membres par asso est relativement dispersé, entre 1 et 64. L'écart type de mon échantillon est de 11,9.
Ma question est donc : comment interpréter cet écart type pour faire ressortir la potentielle variation dans mon estimation ? Je voudrais pour produire une estimation basse et haute. Est-ce que je dois soustraire / ajouter l'écart-type à la moyenne puis multiplier par le nombre de structure ?
Merci de votre aide,
le Morse
pour mon travail de thèse je suis en train d'interpréter des données statistiques d'après un recensement d'associations.
À partir d'un échantillon (85 asso's), je cherche à estimer une moyenne de l'ensemble des pratiquants.
J'ai donc 1222 membres répartis sur 85 structures et un milieu comptant 1157 entités.
La moyenne est donc de 14 membres par structure, ce qui me donne une estimation moyenne de 16634 membres, établie d'après un échantillon de 7,3 % des structures recensées (en fait les seules pour lesquelles j'ai des données concernant le nombre de membres).
Je voudrais aller plus loin dans cette estimation pour montrer sa variation potentielle car le nombre de membres par asso est relativement dispersé, entre 1 et 64. L'écart type de mon échantillon est de 11,9.
Ma question est donc : comment interpréter cet écart type pour faire ressortir la potentielle variation dans mon estimation ? Je voudrais pour produire une estimation basse et haute. Est-ce que je dois soustraire / ajouter l'écart-type à la moyenne puis multiplier par le nombre de structure ?
Merci de votre aide,
le Morse
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
La bonne notion est celle d'intervalle de confiance (sur la moyenne). Je te laisse regarder sur un bouquin ou un pdf de statistiques inférentielles, et on pourra t'aider à mieux comprendre.
L'écart type n'a pas d'interprétation élémentaire, même si c'est un outil utile justement pour définir des intervalles de confiance.
Cordialement.
si j'ai bien compris, cet intervalle de confiance prend en compte trois arguments :
- la taille de l'échantillon : ici est ce 85 ou bien le total 1157 ?
- l'écart-type, que j'ai déjà
- et l'alpha qui "représente le niveau critique utilisé pour calculer le niveau de confiance". J'avoue ne pas vraiment comprendre comment on est censé le déterminer.
Pour le risque, à choisir, il n'y a pas de méthode. C'est un choix de celui qui fait le test. En effet, comme un échantillon ne permet pas de savoir parfaitement ce qui se passe dans le reste de la population, on n'aura quasiment aucune certitude. La seule que tu peux avoir c'est que tes 1154 entités ont au moins 1222 adhérents !!
On se contente donc d'estimations (*), et d'intervalles de confiance avec une confiance relative, donnée par ce risque. Si on veut une confiance de 99%, on prend un risque de 1% (il y aura en moyenne une fois sur 100 la vraie moyenne en dehors de l'intervalle obtenu à partir d'un échantillon). Mais il se trouve que plus le risque est faible, plus l'intervalle est grand, et si on prend un risque trop faible, on a un intervalle de confiance sans utilité (quel intérêt, dans ton cas, d'avoir un intervalle de confiance sur la moyenne de -2000 à 2028 ??).
C'est ce qui fait qu'on utilise souvent une cote mal taillée, avec un risque de 5% (donc une fois sur 20 on rate la vraie moyenne), pas trop faible pour avoir un intervalle utile; ou 1%, ou rarement 10%.
Attention : Tout le calcul ultérieur suppose que l'échantillon est représentatif, c'est à dire a été pris au hasard parmi toute la population. Sinon, on risque d'avoir un échantillon biaisé, qui fausse les résultats.
Cordialement.
(*) on estime la moyenne de la population, la vraie moyenne, inconnue, par la moyenne connue, celle de l'échantillon - connue, mais sûrement fausse
Sur les 85 associations 'connues', l'effectif moyen d'une association est de 14.
On va donc dire : Les autres associations, quel est leur effectif moyen ? et quel est l'effectif moyen des 1157 associations.
Faute de mieux, on va faire une première approximation, on va dire que l'effectif moyen de 1157 associations est de 14. Mais on sait que c'est faux, c'est peut-être 14.003, ou 13.967 ...
On va donc calculer un intervalle, par exemple : l'effectif moyen est entre 3 et 50 : j'ai pris un intervalle très large autour de ma valeur 14 et je suis sur à 99.9% que la vraie valeur est entre 3 et 50.
Et on peut dire : l'effectif moyen est entre 13.3 et 14.7 : j'ai toujours un intervalle autour de 14, il est probable que la valeur moyenne soit dans cet intervalle, mais ce n'est pas sûr à 100% Formulé de manière plus scientifique, on va dire : il y a 60% de chances que l'effectif moyen de toutes les associations soit entre 13.3 et 14.7.
Le 60% que je glisse ici, ou plutôt son complément 40%, c'est le risque d'erreur que j'accepte de prendre. (alpha=40%) (il est là, le alpha qui t'embête).
C'est à toi de choisir ce paramètre. Et à partir de ce paramètre, de la valeur moyenne (14) et de l'écart-type (11.9), il y a des formules qui permettent de bâtir cet intervalle (13.3, 14.7) ou un autre intervalle, plus ou moins large.
Ici, j'ai mis des chiffres plus ou moins réalistes. Il faut appliquer les vraies formules pour avoir des vrais chiffres.
Et je ne sais plus si alpha c'est le 40% de mon explication, ou son complément, le 60% ...
L'écart type ne sert pas qu'à ça.
Ici, un écart-type de 11.9, c'est grand, comparé à la taille moyenne qui vaut 14. Ca te permet de conclure qu'il y a une grande amplitude dans les effectifs. Ok, la moyenne est de 14, mais cette moyenne cache des écarts très grands. Et donc, utiliser la moyenne pour décrire la population, c'est risqué.
Imagine que tu analyses un zoo avec des souris et quelques éléphants, et que tu dis : le poids moyen de mes animaux est de 400kg. C'est exact. Mais dans la réalité, ni les souris, ni les éléphants ne se reconnaissent dans ce 400kg.
Si tu avais un écart-type de 1 ou 2, au contraire, on aurait conclu que l'ensemble est très homogène.
Je pourrais également établir une moyenne avec un écart type moins élevé en choisissant de ne pas prendre en compte les extrêmes qui sont des valeurs extraordinaires. A voir...
Merci pour votre aide et le temps que vous avez consacré à mon problème (il est loin mon bas S...).
Si tu as 84 associations qui ont toutes entre 4 et 35 adhérents, et la 85ème association a un effectif de 222 adhérents, alors, ok, tu peux la supprimer. Le gars voulait taper 22, et il a tapé 222.
Mais ça doit rester exceptionnel.