aide en stats

Bonjour,

J'espère être sur le bon forum pour ce type d'aide.
J'ai un problème de statistiques qui est je pense relativement simple.
Voilà, j'aimerai tirer d'un échantillon de données, celles qui sont le plus représentatives.
Ces données sont chacunes renseignées par plusieurs critères.

Concrètement, j'ai une liste de villes, avec un tas de critères (population, densité, nombre d'emploi, etc, etc...) et j'aimerai tirer de cette liste les villes qui sont une sorte de cas type moyen.

Ce que j'ai fait pour l'instant, d'instinct, c'est que j'ai calculé la moyenne de chaque liste de critère puis j'ai construit de manière complètement arbitraire des segments représentatifs (par exemple pour la population, j'ai calculer la moyenne M et j'ai relevé les villes appartenant à [0.8M ; 1.2M].
A chaque fois j'ai attribué aux villes appartenant aux segments 1 point.
A la fin, j'additionne les points et ai les villes types.

Bon voilà, je pense que ça me donne une idée, mais j'aimerais maintenant le faire rigoureusement, d'un point de vue mathématique.

Pouvez-vous m'aider pour cela ?


Merci d'avance

Réponses

  • Bonjour.

    Je comprends ta méthode, mais je ne vois pas ce que tu peux en tirer. Pour l'analyse de l'ensemble des villes pour les données connues, tu as déjà les données. Pour analyser des données nouvelles, tes villes ne seront pas du tout représentatives. Ton échantillon est biaisé : les villes "moyennes" ne représentent absolument pas les villes "extrêmes".
    Attention, une moyenne ne représente rien, elle résume une valeur additionnable, c'est tout (*).

    Donc à moins que tu aies des arguments scientifiques forts, je ne t'encouragerai pas à continuer cette démarche.

    Cordialement.

    (*) Une chaussure droite de pointure 37 et une chaussure gauche de pointure 43 ne font pas une pointure de 40. Si les notes d'un étudiant dans les différentes disciplines sont 0, 0, 20 et 20, il n'est pas "moyen", il est nul dans certaines disciplines et génial dans d'autres. Prévoir 10 pour la prochaine épreuve n'est pas possible.
  • Bonjour, et merci pour cette première réponse.

    Il n'est pas question de "prévoir 10" comme dans le cas de votre exemple.

    Ma question est la suivante :
    Comment tirer d'une liste de villes, renseignées par plusieurs critères, celles qui sont représentatives ?
    Si je ne peux en étudier qu'une, et que j'aimerais qu'elle réponde le mieux possible au cas national, laquelle prendre ? (il y a évidemment des particularités, etc, mais là n'est pas la question).

    Ma méthode je pense répond en partie à la question. Je détermine la ville ayant la population moyenne de mon échantillon, je détermine celle ayant le nombre moyen d'emplois, etc... et je déduis la ville qui représente au mieux l'échantillon (ou plutôt les villes puisque je travaille sur des segments).

    Est-ce complètement faux ?

    Ce que je recherche maintenant, c'est justement une solution rigoureuse, mathématique, pour faire cela.

    Merci encore !
  • C'est ta question qui n'a pas de sens :"Comment tirer d'une liste de villes, renseignées par plusieurs critères, celles qui sont représentatives ? "
    En tout cas, avec la signification habituelle en statistiques, du mot "représentatif".
    Un "échantillon représentatif" est un échantillon tiré au hasard (éventuellement traité avec la méthode des quotas. Mais il ne se caractérise pas par un choix d'individus particuliers.

    "Si je ne peux en étudier qu'une, et que j'aimerais qu'elle réponde le mieux possible au cas national, laquelle prendre ?" Aucune ! Rien ne permet de dire que la ville choisie "représente" l'ensemble des villes, ou la nation. Tu confonds les notions de "proche de la moyenne" et "échantillon représentatif".

    Enfin sur un choix multicritères, il n'existe pas de méthode "rigoureuse", mathématique.

    Désolé.
  • Pardon,

    Effectivement je ne parlais pas de "représentatif" au sens statistique du terme.
    Avez-vous cependant compris le sens de ma question ?

    Et dans mon cas, comment décrire mathématiquement ce segment autour de la moyenne ? Et comment en définir les bornes ? le 20% que j'ai mis dans l'exemple est arbitraire, y a t'il un moyen de définir ce nombre en cohérence avec les données ?

    Merci
  • Ce que tu as obtenu, c'est un palmarès des villes "les plus proches de la moyenne" dans le classement que tu as constitué. Si tu changes les critères (30% au lieu de 20%, ou 10%), tu changeras probablement le classement.
    Si par hasard tu as des villes qui sont souvent proches de la moyenne sur les critères que tu as choisis, elles seront en tête de liste. Mais qu'est-ce que ça signifie ?

    Donc tu es bien plus proche du travail des journalistes ("le palmarès des villes les plus ...") que d'un travail scientifique. Pour passer à un travail vraiment scientifique, il faudrait de fortes justifications des différentes étapes, que tu ne peux trouver dans les statistiques, qui se contentent de calculer (2 est-ce mieux ou moins bien que 3 ? Ce n'est pas aux maths de décider : 2 fautes d'orthographe c'est mieux que 3; deux médailles d'or c'est moins bien que trois). A toi de trouver si tu as des raisons sérieuses de faire ce que tu fais (privilégier la moyenne;choisir un intervalle; un point à chaque fois; additionner; choix final). Ou de décider de présenter autrement.

    Au fait, à quoi ça peut bien servir ? En tout cas pas à avoir des "villes types".

    Cordialement
  • Bon j'ai peut-être trop schématisé mon problème dans le but d'être clair.

    Evidemment qu'il y a une réflexion derrière. Je ne donne pas 1 point pour chaque critère, certains étant considérés plus déterminants que d'autres pour ma problématique, ils obtiennent des scores plus importants.

    Je n'utilise pas un seul intervalle non plus, mais plusieurs partant de la moyenne et attribuant de moins en moins de points en fonction de l'éloignement (ce serait incorrect d'attribuer binairement des points ou non a des villes pourtant proches).

    Je comprends que mon travail ne soit pas purement mathématique (de la à le qualifier de journalistique...) mais ma question était justement d'y associer, par endroits des outils mathématiques.
    Par exemple, dans le calcul des segments, j'imagine que faire intervenir la variance pourrait être intéressant, piusque un segment de + ou - 20% n'aura aucun sens dans le cas où toutes les données sont proches de la moyenne.
    J'évalue en ce moment ce segment "à la louche" et j'aimerai justement un peu de rigueur. Vous me reprochez de ne pas en avoir, mais c'est justement ce que je cherche.

    J'ai sans doute mal exprimé ce que je cherchais à faire, pourtant, je suis persuadé que cela est possible. Je m'en excuse.

    Je ne vous ennuie pas plus longtemps, merci de votre disponibilité.
  • Effectivement,

    faire intervenir la dispersion (écart type, plutôt que variance, ou inter-quartile, ou déciles 5 et 6, etc.) est une bonne idée, mais qui ne rend pas plus scientifique. L'aspect scientifique est dans la signification de ce qui est fait. Et comme tu n'as pas donné de raisons, je ne peux pas juger. Car le fait de faire des calculs (numérologie) ou des statistiques (astrologie) ne rend pas le discours scientifique. C'est sa cohérence interne et son lien avec la réalité qui compte.

    Bonne chance !
  • N'étant pas venu ici pour débattre de l'intérêt ou même l'aspect scientifique de mon travail, je m'arrêterai là, mais me permets quand même une réponse avant de partir.
    Je ne cherche pas à "rendre" mon travail scientifique.
    La réflexion a été menée, scientifiquement comme vous dites. J'ai relevé dans la littérature un certain nombre de critères qui seront pertinents dans mon étude, me suis procuré pour ces critères les données, ai classé ces critères par ordre de pertinence, attribué en fonction le poids que je souhaite leur donner, fait une première estimation "à la louche", bref, j'ai réfléchis et mis en oeuvre une démarche scientifique.
    Je ne pense pas vous choquer en vous disant qu'une fois une démarche mise en oeuvre, il convient d'utiliser des méthodes adaptées, sérieuses et cohérentes pour obtenir des résultats qui le soient.
    C'est ce que je recherchais ici, en amont des critiques sur un fond dont je ne parle pas, ce qui ne veut pas dire qu'il n'existe pas. Je ne suis pas mathématicien, encore moins statisticien, à chacun son métier. Et je m'excuse encore donc pour l'impertinence probable de ma question.
    Sur ce, bonne chance à vous aussi.
  • Bonjour
    Tu pourrais essayer les tests du genre : analyse en composantes principales qui donne des graphiques ou les dendrogrammes, qu'offre MInitab
    cordialement
    Koniev
  • Merci,
    Je vais me renseigner là-dessus,
    Bien cordialement
Connectez-vous ou Inscrivez-vous pour répondre.