Pensez à lire la Charte avant de poster !

$\newcommand{\K}{\mathbf K}$


Les-Mathematiques.net - Cours de mathématiques supérieures
 Les-Mathematiques.net - Cours de mathématiques universitaires - Forum - Cours à télécharger

A lire
Deug/Prépa
Licence
Agrégation
A télécharger
Télécharger
65 personne(s) sur le site en ce moment
E. Cartan
A lire
Articles
Math/Infos
Récréation
A télécharger
Télécharger
Théorème de Cantor-Bernstein
Théo. Sylow
Théo. Ascoli
Théo. Baire
Loi forte grd nbre
Nains magiques
 
 
 
 
 

aide en stats

Envoyé par jahawai 
aide en stats
il y a huit années
Bonjour,

J'espère être sur le bon forum pour ce type d'aide.
J'ai un problème de statistiques qui est je pense relativement simple.
Voilà, j'aimerai tirer d'un échantillon de données, celles qui sont le plus représentatives.
Ces données sont chacunes renseignées par plusieurs critères.

Concrètement, j'ai une liste de villes, avec un tas de critères (population, densité, nombre d'emploi, etc, etc...) et j'aimerai tirer de cette liste les villes qui sont une sorte de cas type moyen.

Ce que j'ai fait pour l'instant, d'instinct, c'est que j'ai calculé la moyenne de chaque liste de critère puis j'ai construit de manière complètement arbitraire des segments représentatifs (par exemple pour la population, j'ai calculer la moyenne M et j'ai relevé les villes appartenant à [0.8M ; 1.2M].
A chaque fois j'ai attribué aux villes appartenant aux segments 1 point.
A la fin, j'additionne les points et ai les villes types.

Bon voilà, je pense que ça me donne une idée, mais j'aimerais maintenant le faire rigoureusement, d'un point de vue mathématique.

Pouvez-vous m'aider pour cela ?


Merci d'avance
Re: aide en stats
il y a huit années
Bonjour.

Je comprends ta méthode, mais je ne vois pas ce que tu peux en tirer. Pour l'analyse de l'ensemble des villes pour les données connues, tu as déjà les données. Pour analyser des données nouvelles, tes villes ne seront pas du tout représentatives. Ton échantillon est biaisé : les villes "moyennes" ne représentent absolument pas les villes "extrêmes".
Attention, une moyenne ne représente rien, elle résume une valeur additionnable, c'est tout (*).

Donc à moins que tu aies des arguments scientifiques forts, je ne t'encouragerai pas à continuer cette démarche.

Cordialement.

(*) Une chaussure droite de pointure 37 et une chaussure gauche de pointure 43 ne font pas une pointure de 40. Si les notes d'un étudiant dans les différentes disciplines sont 0, 0, 20 et 20, il n'est pas "moyen", il est nul dans certaines disciplines et génial dans d'autres. Prévoir 10 pour la prochaine épreuve n'est pas possible.



Edité 1 fois. La dernière correction date de il y a huit années et a été effectuée par AD.
Re: aide en stats
il y a huit années
Bonjour, et merci pour cette première réponse.

Il n'est pas question de "prévoir 10" comme dans le cas de votre exemple.

Ma question est la suivante :
Comment tirer d'une liste de villes, renseignées par plusieurs critères, celles qui sont représentatives ?
Si je ne peux en étudier qu'une, et que j'aimerais qu'elle réponde le mieux possible au cas national, laquelle prendre ? (il y a évidemment des particularités, etc, mais là n'est pas la question).

Ma méthode je pense répond en partie à la question. Je détermine la ville ayant la population moyenne de mon échantillon, je détermine celle ayant le nombre moyen d'emplois, etc... et je déduis la ville qui représente au mieux l'échantillon (ou plutôt les villes puisque je travaille sur des segments).

Est-ce complètement faux ?

Ce que je recherche maintenant, c'est justement une solution rigoureuse, mathématique, pour faire cela.

Merci encore !
Re: aide en stats
il y a huit années
C'est ta question qui n'a pas de sens :"Comment tirer d'une liste de villes, renseignées par plusieurs critères, celles qui sont représentatives ? "
En tout cas, avec la signification habituelle en statistiques, du mot "représentatif".
Un "échantillon représentatif" est un échantillon tiré au hasard (éventuellement traité avec la méthode des quotas. Mais il ne se caractérise pas par un choix d'individus particuliers.

"Si je ne peux en étudier qu'une, et que j'aimerais qu'elle réponde le mieux possible au cas national, laquelle prendre ?" Aucune ! Rien ne permet de dire que la ville choisie "représente" l'ensemble des villes, ou la nation. Tu confonds les notions de "proche de la moyenne" et "échantillon représentatif".

Enfin sur un choix multicritères, il n'existe pas de méthode "rigoureuse", mathématique.

Désolé.
Re: aide en stats
il y a huit années
Pardon,

Effectivement je ne parlais pas de "représentatif" au sens statistique du terme.
Avez-vous cependant compris le sens de ma question ?

Et dans mon cas, comment décrire mathématiquement ce segment autour de la moyenne ? Et comment en définir les bornes ? le 20% que j'ai mis dans l'exemple est arbitraire, y a t'il un moyen de définir ce nombre en cohérence avec les données ?

Merci
Re: aide en stats
il y a huit années
Ce que tu as obtenu, c'est un palmarès des villes "les plus proches de la moyenne" dans le classement que tu as constitué. Si tu changes les critères (30% au lieu de 20%, ou 10%), tu changeras probablement le classement.
Si par hasard tu as des villes qui sont souvent proches de la moyenne sur les critères que tu as choisis, elles seront en tête de liste. Mais qu'est-ce que ça signifie ?

Donc tu es bien plus proche du travail des journalistes ("le palmarès des villes les plus ...") que d'un travail scientifique. Pour passer à un travail vraiment scientifique, il faudrait de fortes justifications des différentes étapes, que tu ne peux trouver dans les statistiques, qui se contentent de calculer (2 est-ce mieux ou moins bien que 3 ? Ce n'est pas aux maths de décider : 2 fautes d'orthographe c'est mieux que 3; deux médailles d'or c'est moins bien que trois). A toi de trouver si tu as des raisons sérieuses de faire ce que tu fais (privilégier la moyenne;choisir un intervalle; un point à chaque fois; additionner; choix final). Ou de décider de présenter autrement.

Au fait, à quoi ça peut bien servir ? En tout cas pas à avoir des "villes types".

Cordialement
Re: aide en stats
il y a huit années
Bon j'ai peut-être trop schématisé mon problème dans le but d'être clair.

Evidemment qu'il y a une réflexion derrière. Je ne donne pas 1 point pour chaque critère, certains étant considérés plus déterminants que d'autres pour ma problématique, ils obtiennent des scores plus importants.

Je n'utilise pas un seul intervalle non plus, mais plusieurs partant de la moyenne et attribuant de moins en moins de points en fonction de l'éloignement (ce serait incorrect d'attribuer binairement des points ou non a des villes pourtant proches).

Je comprends que mon travail ne soit pas purement mathématique (de la à le qualifier de journalistique...) mais ma question était justement d'y associer, par endroits des outils mathématiques.
Par exemple, dans le calcul des segments, j'imagine que faire intervenir la variance pourrait être intéressant, piusque un segment de + ou - 20% n'aura aucun sens dans le cas où toutes les données sont proches de la moyenne.
J'évalue en ce moment ce segment "à la louche" et j'aimerai justement un peu de rigueur. Vous me reprochez de ne pas en avoir, mais c'est justement ce que je cherche.

J'ai sans doute mal exprimé ce que je cherchais à faire, pourtant, je suis persuadé que cela est possible. Je m'en excuse.

Je ne vous ennuie pas plus longtemps, merci de votre disponibilité.
Re: aide en stats
il y a huit années
Effectivement,

faire intervenir la dispersion (écart type, plutôt que variance, ou inter-quartile, ou déciles 5 et 6, etc.) est une bonne idée, mais qui ne rend pas plus scientifique. L'aspect scientifique est dans la signification de ce qui est fait. Et comme tu n'as pas donné de raisons, je ne peux pas juger. Car le fait de faire des calculs (numérologie) ou des statistiques (astrologie) ne rend pas le discours scientifique. C'est sa cohérence interne et son lien avec la réalité qui compte.

Bonne chance !
Re: aide en stats
il y a huit années
N'étant pas venu ici pour débattre de l'intérêt ou même l'aspect scientifique de mon travail, je m'arrêterai là, mais me permets quand même une réponse avant de partir.
Je ne cherche pas à "rendre" mon travail scientifique.
La réflexion a été menée, scientifiquement comme vous dites. J'ai relevé dans la littérature un certain nombre de critères qui seront pertinents dans mon étude, me suis procuré pour ces critères les données, ai classé ces critères par ordre de pertinence, attribué en fonction le poids que je souhaite leur donner, fait une première estimation "à la louche", bref, j'ai réfléchis et mis en oeuvre une démarche scientifique.
Je ne pense pas vous choquer en vous disant qu'une fois une démarche mise en oeuvre, il convient d'utiliser des méthodes adaptées, sérieuses et cohérentes pour obtenir des résultats qui le soient.
C'est ce que je recherchais ici, en amont des critiques sur un fond dont je ne parle pas, ce qui ne veut pas dire qu'il n'existe pas. Je ne suis pas mathématicien, encore moins statisticien, à chacun son métier. Et je m'excuse encore donc pour l'impertinence probable de ma question.
Sur ce, bonne chance à vous aussi.
Re: aide en stats
il y a huit années
Bonjour
Tu pourrais essayer les tests du genre : analyse en composantes principales qui donne des graphiques ou les dendrogrammes, qu'offre MInitab
cordialement
Koniev
Re: aide en stats
il y a huit années
Merci,
Je vais me renseigner là-dessus,
Bien cordialement
Seuls les utilisateurs enregistrés peuvent poster des messages dans ce forum.

Cliquer ici pour vous connecter

Liste des forums - Statistiques du forum

Total
Discussions: 137 942, Messages: 1 337 848, Utilisateurs: 24 646.
Notre dernier utilisateur inscrit inconnu25545.


Ce forum
Discussions: 3 647, Messages: 21 791.

 

 
©Emmanuel Vieillard Baron 01-01-2001
Adresse Mail:

Inscription
Désinscription

Actuellement 16057 abonnés
Qu'est-ce que c'est ?
Taper le mot à rechercher

Mode d'emploi
En vrac

Faites connaître Les-Mathematiques.net à un ami
Curiosités
Participer
Latex et autres....
Collaborateurs
Forum

Nous contacter

Le vote Linux

WWW IMS
Cut the knot
Mac Tutor History...
Number, constant,...
Plouffe's inverter
The Prime page