Retrouver des données manquantes

Bonjour
Je souhaiterais connaître la bonne méthode pour estimer des valeurs manquantes dans une série statistique.

Par exemple, j'ai une classe de 20 élèves. Lors d'un examen, je réussi à récupérer les notes de 12 élèves.
À partir de cet échantillon, je suis capable de calculer une note moyenne et un écart type.
Je souhaiterais estimer les 8 notes manquantes. J'ai pensé à appliquer mon écart type sur la moyenne que j'ai obtenue pour répartir les notes manquantes, mais je ne sais pas comment faire ?
Est-ce que vous auriez une idée ?
Merci beaucoup pour votre aide.

Réponses

  • Bonjour,

    Précise peut-être à quel niveau on se place pour cet exercice.

    Cordialement

    Dom
  • Je ne suis pas sûr d'avoir bien compris. Il ne s'agit pas vraiment d'un exercice scolaire, c'est plutôt dans le cadre d'une approche méthodologique.
  • Bonjour.

    C'est une opération délicate, car
    * soit l'échantillon est biaisé, il ne représente pas l'ensemble des notes, donc aucune signification.
    * Soit on a un échantillon représentatif (pris au hasard) et on peut estimer la moyenne et l'écart type de l'ensemble des notes, mais pas les notes individuelles.

    Donc ce n'est pas un problème de statistiques (*), mais de connaissance de ce qui se passe. par exemple, si j'ai pris les 12 copies rendues une heure avant la fin au bac, il y a des chances que ce soient plutôt les copies des cancres, et les 8 autres copies seront probablement meilleures.

    Cordialement.

    (*) les stats ne sont pas de la magie
  • Je suis d'accord avec toi Gerard, que c'est difficile d'avoir une information qui reflète la réalité.

    Mais malheureusement je ne peux pas changer mon échantillon. D'ailleurs ta remarque est pertinente concernant les copies du bac où les notes vont varier en fonction du temps passé dessus.

    Disons, que dans mon exemple, il s'agit d'un tirage aléatoire des copies, et que mon échantillon est plutôt représentatif de l'ensemble de la population.

    Je connais les notions d'intervalle de confiance de la moyenne, et l'écart type, mais mon but c'est de pouvoir reconstituer les notes manquantes même si cela n'est pas juste statistiquement.

    Par exemple utiliser mon écart type pour répartir les notes manquantes. Mon raisonnement est le suivant, à partir de mon échantillon, je sais que les données sont dispersées de tant autour de ma moyenne, du coup je réutilise cette information pour dire que les notes manquantes vont avoir la même dispersion par rapport à la moyenne. C'est possible de faire ça ?

    J'ai conscience que je vais attribuer un biais à mon échantillon, mais j'ai besoin que mes données soit complètes.

    Après peut-être qu'il existe une autre méthode statistique (machine learning ?), qui utiliserait toutes les informations dont je dispose concernant ces élèves pour pouvoir attribuer une note, mais pour l'instant j’essaie de trouver quelque chose d'assez simpliste, et pas compliqué à mettre en place.
  • Tu peux essayer de reconstituer un ensemble de 8 notes ayant à peu près la même moyenne et telles que l'écart type des 20 notes soit proche de l'estimation de l'écart type de l'ensemble des 20 notes par l'échantillon. mais
    * Il y a sans doute plusieurs solutions
    * les moyennes et écart type estimés par l'échantillon ne sont proches des vraies valeurs que si la chance est avec toi. Par exemple, la moyenne de l'échantillon peut aléatoirement varier de la moyenne des 12 plus mauvaises notes à la moyenne des 12 meilleurs. Mais c'est un estimateur qui donne en moyenne (sur tous les échantillons possibles) la bonne valeur, et c'est pour cela qu'on l'emploie.

    Cette reconstitution peut se faire à la main, avec un tableur, par exemple; ou bien par un programme. Un programme facile à faire, mais qu'il faudra peut-être faire tourner longtemps est de faire choisir les 8 notes au hasard, de tester si leur moyenne est proche de celle des 12, puis si l'écart type des 20 notes est proche de celui estimé.

    Cordialement.
  • j'ai besoin que mes données soit complètes.
    Peut-être que tu peux nous dire pourquoi tu as besoin de ces 8 nouvelles valeurs ?
  • Ce que je veux dire, c'est qu'inventer bêtement des valeurs, c'est typiquement assez peu pertinent en statistiques, et qu'il vaut sans doute mieux faire avec celles qu'on a plutôt que d'introduire arbitrairement des cochonneries dans notre échantillon.
  • On a une classe de 20 élèves. On a corrigé 12 copies. Et l'on veut les notes des 8 autres copies. Problème essentiel pour un correcteur. Une technique connue et "politiquement correcte" est de corriger les huit copies restantes. Il y a quelques autres techniques, mais est-ce bien raisonnable de les divulguer ?
  • Si je sais encore compter. Cela doit faire huit fois cinq soit 34% de données manquantes. Je crois que je me trompe, c'est peut-être 40%.Tu es un peu mal là. Le traitement des données manquantes est un domaine très fécond (avant certains logiciels remplaçaient les valeurs manquantes par la moyenne de la variable incriminée). Il y a l'algorithme de machine learning MADAMIRMA :-).
    Au revoir.
  • Dans certains messages, tu sous-entends que tu as 12 nombres et tu veux 'étoffer' cette série, pour avoir 20 nombres.
    Et dans d'autres messages, tu sous-entends que tu as les notes de 12 élèves, tu as d'autres informations concernant ces 12 élèves (ils ont été pris au hasard, mais tu as les moyens de vérifier si ce sont les 12 plus faibles, les 12 meilleurs ou ... ou ...), et tu veux donc prévoir les notes des 8 autres élèves (pas 8 nombres au hasard, mais la note de XX , major systématiquement, la note de Y, qui est toujours moyen... et les notes des 6 autres élèves).

    Est-on dans le mystère n°1 ou dans le mystère n°2 ?
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Heu, 40% de valeurs manquantes. On pourra retourner le problème dans tous les sens mais il n'y a rien à faire. Une des méthodes les plus simples est la régression multiple dans un fichier. Si tu veux faire quelque chose d'inutile, fais une régression simple. Sinon, il y a encore de la place dans le verre d'eau ?
    Bonne nuit.
  • Je ne pensais pas avoir autant de réponses.

    Merci beaucoup pour ces échanges, malheureusement nombreux sont sarcastiques. Vous pouviez très bien dire que ce n'est pas possible sans forcément tourner en dérision mon exemple.

    Et si pour vous 40 % de valeur manquantes est un nombre trop important, on peut diminuer à 25%.

    Ça reste un exemple.
  • Grayfox,

    ce que tu appelles "sarcastique" est simplement une façon un peu forcée de te dire qu'il ne faut pas rêver. Les maths, en particulier les stats ne font pas de miracles : Une méconnaissance restera une méconnaissance.
    Donc si tu as des raisons non statistiques de pouvoir préciser ce que risquent d'être les valeurs manquantes, il faut t'en servir à fond. Par exemple dans ton cas, tu sais que les valeurs sont entre 0 et 20, et en points entiers (ou demi entiers, ou décimales à 2 chiffres après la virgule). Ce n'est pas statistique, mais ça limite les possibilités.

    Et on ne pourra pas aller plus loin ici.
  • Bonjour,
    Je fais parfois des commentaires que je pense un peu humoristiques mais j'essaye d'y mettre un peu de fond. Je vais faire un peu plus attention à ne pas trop dépasser la ligne blanche à l'avenir.
    Bien cordialement à tous.
  • Bonjour Grayfox
    Ton sujet m'intéresse également dans le cadre de la mise en place de simulation avec des algorithmes.

    Si tu souhaites absolument déterminer une donnée à une valeur manquante tout en prenant le risque d'introduire un biais dans ton échantillon, il y a plusieurs méthodes qui s'offrent à toi.

    Je ne suis pas un spécialiste, mais j'ai pu voir que tu pouvais utiliser la moyenne de ton échantillon, la médiane, le mode, par la régression...

    Peut-être que tu peux aussi simuler les valeurs manquantes en reprenant les paramètres de l'échantillon, en s'assurant de bien connaître la loi de ton échantillon.

    J'essaie de te donner des pistes mais malheureusement mes connaissances en statistique sont limitées, j'aimerais pouvoir en faire d'avantage.
  • Bonsoir;
    Il y a des méthodes aux noms barbares telles "Multiple Imputation", algorithme EM (i.e. expectation maximisation) ou "Full Information Maximum Likelihood" et d'autres qui sont utilisées, en plus des méthodes, plus pragmatiques données par diamondogs.
    A suivre.
    Bonne soirée.
  • Merci @diamondogs pour ton aide et notamment pour les méthodes que tu as citées. Mais je ne souhaite pas attribuer la même valeur pour chaque note manquante.

    L'idéal serait pour moi que l'attribution des notes soit plus proche de la réalité (entre 0 et 20) mais que je ne me retrouve pas avec x fois la même note, donc ne pas utiliser la moyenne ou la médiane,

    @jma Je te remercie également pour ta réponse, et les méthodes que tu mentionnes m'intéresse même si je n'y connais rien. Est-ce que tu aurais plus de renseignements à ce sujet (par exemple de la documentation, des tutoriels...) ? En espérant que ce ne soit pas trop technique.

    Je suis également désolé concernant mon précédant post, où je me suis aussi emporté dans ma réponse. Je dois avouer aussi que mon exemple est tiré par les cheveux, et que je ne donne pas assez de détail.

    Au final ce que je recherche à faire, c'est trouver la bonne méthode pour estimer les valeurs manquantes.

    Lorsque j'ai parlé de 8 notes manquantes, ce n'était pas volontaire, j'aurais pu dire n'importe quel nombre. Je connais les 20 notes, mais mon but c'est de déterminer quelle serait la meilleure méthode pour estimer les notes manquantes en fonction de mon échantillon.

    Peut-être qu'il y a justement un seuil à fixer pour réussir à faire une estimation. Peut-être qu'avec d'autres informations je peux réussir à faire quelque chose, en fonction du professeur (le min et le max de ses notes), en fonction du sexe de l'élève (fille, garçon)...
  • Entendu grayfox. Peux-tu me laisser quelques jours pour te donner le maximum d'informations que j'aurais trouvées ?
    Cordialement.

    Ajout : j'avais vu passé cet article dans le journal de la SFDS. Je pense qu'il va être beaucoup beaucoup trop technique pour toi mais parcours le sans pression. J'essaierais de faire plus simple dans la suite des posts (fichier VManquantes_jsfds.pdf ajouté).
  • Bonsoir,
    @grayfox : pourrais-tu nous expliquer de la manière la plus explicite possible ce qui t'amène à te poser cette question et ce que tu vas faire des réponses possibles ? Je te demande cela car la demande initiale impacte (comme on dit maintenant) particulièrement les réponses.C'est presque dans l'ADN (comme on dit maintenant) des statistiques de bien poser le problème au début et on ne va pas changer un logiciel qui fonctionne (comme on dit maintenant).

    Cordialement.

    p.s. sarcastique vis-à-vis du vocabulaire ambiant.
  • Bonjour

    jma : Je ne suis pas sûr de bien avoir compris ton dernier message. Tu veux que je réexplique mon problème ?

    J'ai l'impression que tu as un doute sur mes intentions.
    et ce que tu vas faire des réponses possibles ?
  • Tu parles d'utiliser le sexe de l'élève ( euh... certains esprits mal tournés pourraient mal comprendre cette phrase).

    Oui, certainement.

    Comme dit JMA, un problème bien formulé, c'est un problème à moitié résolu. Et un problème mal formulé, c'est un problème qui ne saura jamais résolu.

    Ici, avec cette histoire de sexe des élèves, ça veut dire que tu as une série de notes, et que tu as des informations complémentaires sur les élèves en question.
    Ca change du début, où tu avais une série de notes, et rien d'autre. Ce n'est plus la même question. Et visiblement, la question va encore changer très bientôt.

    Pour t'aider, on peut juste te donner des mots clés : Corrélation, modélisation, régression ...
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • @lourran

    Je suis d'accord avec toi, mon problème est mal posé et ça doit venir du fait que dans ma problématique (Comment attribuer des valeurs manquantes dans une série statistique ?), j'ai plusieurs cas de figure possibles.

    Ainsi, mon premier post était peut-être le cas le plus difficile, où je n'ai uniquement la note moyenne et l'écart type de mon échantillon. Et à partir de ces informations, je dois retrouver les notes manquantes.

    Ensuite pour les autres cas, je peux avoir des informations supplémentaire, par exemple je connais le min et le max de l'ensemble des notes. Donc la question serait plutôt, quelles vont êtres les notes manquantes en sachant que les notes se situent entre telle et telle valeur.

    Tout ça pour dire, qu'en fonction de la situation, j'ai besoin de déterminer la méthode qui conviendrait le mieux pour retrouver ces valeurs manquantes.
  • grayfox a écrit:
    déterminer la méthode qui conviendrait le mieux pour retrouver ces valeurs manquantes.
    Méthode qui "conviendrait" selon quels critères ?

    Si on te propose plusieurs méthodes, comment t'y prendras-tu pour choisir "la meilleure" ?

    C'est pour ça que les gens te demandent "pour quoi faire ?"

    Parce que pour l'instant, tu n'as donné aucun critère, et donc n'importe quelle méthode pour engendrer de nouvelles valeurs est solution de ton "problème".
  • Une étude statistique comporte trois phases.
    (1) création d'un protocole, écrit et détaillé.
    (2) collecte des "données"
    (3) traitement des données selon le protocole prévu par avance.

    Le résultat d'une collecte qui se serait déroulée en l'absence d'un protocole préalable
    n'a pas le statut de données statistiques: c'est juste du bruit. Le protocole a pour objectif de garantir
    que les données collectées sont indépendantes du processus de collecte et des biais que ce
    processus pourrait introduire. C'est ce qui assure des variances en $1/n$ et des écarts-types en $\sqrt{1/n}$.

    L'idée même que l'on pourrait "retrouver des données manquantes" par un traitement statistique est absurde. Si un patient ne répond pas à une enquête de suivi, il est peut-être guéri... et occupé au point de ne plus avoir le temps de répondre. Il est peut-être mort au point de ne plus pouvoir répondre. Une enquête complémentaire pourrait permettre de l'apprendre. Connaître des probabilités de survie ne permet pas cela.

    Cordialement, Pierre.
  • marsup a écrit:
    Méthode qui "conviendrait" selon quels critères ?

    Si on te propose plusieurs méthodes, comment t'y prendras-tu pour choisir "la meilleure" ?

    C'est pour ça que les gens te demandent "pour quoi faire ?"

    Comment je m'y prendrai pour choisir la meilleure méthode ? Et selon quel critère ?

    En réalisant des simulations.

    Je prends le cas de figure 1, c'est à dire uniquement les notes des élèves sans informations supplémentaires. Je connais toutes mes notes, mais pour tester la méthode, j'en supprime de façon aléatoire un certain nombre. (A réaliser plusieurs fois).
    J'applique la méthode pour estimer ces valeurs manquantes, et je compare si les notes se rapprochent de la réalité.
    Ainsi, tester plusieurs méthodes et comparer le résultat avec la réalité, va me permettre de choisir la " meilleure ".

    Mon but n'est pas de créer une polémique, je cherche juste à trouver une solution à ma problématique. Peut-être que ce n'est pas un problème statistique, dans ces cas là je suis désolé de vous déranger avec ça.
  • Manifestement, Grayfox,

    tu te refuses à donner un but à ta démarche autre que "retrouver des données manquantes". C'est donc à toi de faire, nous on n'a pas de but pour orienter notre aide.
    Et tu sembles parti dans une idée malsaine qui est que connaissant une partie des données il existe une seule bonne solution du problème "retrouver les données manquantes". Comme si tu n'avais aucune connaissance de la réalité de la dispersion statistique, comme si tu croyais qu'un échantillon des données donne une connaissances précise de la totalité de la population.

    Donc je te laisse jouer avec tes simulations et rêver de l'existence d'une "bonne méthode" pour deviner les notes de 8 élèves sans rien savoir sur eux (c'est exactement ce que tu te proposes de faire). Si tu trouves, il te restera à généraliser jusqu'à avoir les notes avant même qu'ils aient composé ...

    Cordialement.

    NB : Mon ton n'est pas sarcastique, il est seulement le prolongement de tes affirmations (désirs).
  • Bonsoir à tous,

    En général, il arrive une question initiale (par exemple pour toi grayfox : comment imputer huit valeurs manquantes ?). Or, je pense que cette question fait partie d'une plus grosse problématique que celle statistique. Pourquoi avoir eu cette idée ? Si, tu as des solutions à quoi vont-elles te servir ? Je ne sais pas si je me fais comprendre. C'est un peu contextualiser le problème.

    Cordialement.
  • Bonjour,

    @Gerard0 : je suis en partie d"accord avec toi sauf que je ne dirais pas cela comme toi parce que tous les vendredis sont mes jours ultra-zen. En fait c'est illusoire de vouloir résoudre ce problème juste sur une série de 20 notes si ce n'est pas inscrit dans un plus gros fichier ou dans plusieurs séries d'où ma demande des motivations. Pour finir, par une phrase qui s'applique à beaucoup de choses : "Le meilleur moyen de résoudre le problème des valeurs manquantes est de ne pas en avoir".

    Cordialement.
  • Bonsoir,
    Au final, je suppose que les motivations de cette question était si vaines qu'elles ne pouvaient être énoncées. Pour nous, beaucoup de caractères tapés pour rien mais un article de synthese sur le traitement des données manquantes pour ceux qui sont/vont être confrontés à cette situation ? Mes vendredis sont ultra-zen mais aussi ultra-optimistes.
    Bon week-end.
    p. s. @AD je joue avec la syntaxe mais c'est un de mes vendredis...
  • Bonsoir jma

    J'en profite comme c'est Vendredi pour te répondre, et si c'est un jour où tu es ultra zen alors mieux vaut en profiter.

    Quel est mon objectif dans tout cela, c'est de pouvoir constituer une base de données complètes à partir d'information partielle.

    Je prends un exemple quelconque, je vais sur internet et je souhaite réserver une chambre d'hôtel. Je regarde les disponibilités des chambres, ce qui donne mon échantillon. Maintenant je me pose la question concernant les chambres qui ne sont pas disponibles et donc qui n'apparaissent pas sur le site, est-ce que je suis en mesure de deviner leurs caractéristiques à partir de mon échantillon.

    Du coup, je pourrai donner pleins d'exemples dans tous les domaines possibles, est-ce que je peux deviner le stock des produits d'un magasin, les patients dans un hôpital...

    Je sais pas si ça vous aide plus à comprendre ce que j'essaie de faire.

    Et encore merci pour ces échanges très enrichissant
  • Ne pas confondre les statisticiens avec Mme Irma !
  • Rastafari !
    Je pense que tu demandes un peu trop aux statistiques. Tu remarqueras qu'entre ta question initiale et ton dernier post, il y a une sacré différence. Il y a peut-être des choses à faire mais pour moi, ce n'est pas du domaine des données manquantes.
    Si tu arrives à reformuler un problème sur cette thématique et des idées de methodes même vagues, nous pourrons voir.
    En attendant. Bon week-end.
    Peace !
  • Moi, j'ai la réponse au problème, mais je la publierai seulement si tu me donnes, grayfox, la réponse à mon énigme.

    J'ai lancé 100 fois un dé à 6 faces.

    Je te donne, ci-dessous, les 99 premiers scores obtenus, et j'aimerais que tu me calcules la 100ème.
    4,1,6,1,2,1,4,5,6,4,3,1,3,6,1,5,1,5,2,3,2,6,4,6,4,5,5,5,3,3,3,6,5,5,2,5,2,5,3,1,6,3,3,5,1,5,2,5,1,2,6,4,5,5,4,5,6,1,3,6,3,6,1,3,6,3,6,4,3,2,2,5,6,1,6,2,1,5,3,3,3,1,4,3,2,5,6,1,6,5,5,1,4,1,3,3,2,3,4,?
    
  • @marsup

    Je crois avoir compris ton énigme. En lançant le dé la probabilité d'obtenir un nombre entre 1 et 6 reste là même. Elle ne dépend pas des 99 résultats obtenus précédemment.

    @ jma

    Oui je suis désolé si j'ai mal formulé mon problème je pense que j'étais trop focalisé sur une méthode plutôt que de vouloir exposer de façon explicite ma problématique.

    Donc si je reviens à mon exemple sur les chambres d'hôtel. D'abord je cherche à connaître la composition des chambres de l'hôtel. Combien il y a de chambres simple, double,triple...
    Ceci me permet déjà de catégoriser les chambres en fonction du nombre de lits.

    Ensuite ce que je cherche à déterminer ça va être la superficie des chambres selon la catégorie.
    Je pars du principe que la superficie varie selon un certain ordre de grandeur. De manière générale les superficies vont êtres proches, à part peut-être une chambre d'exception qui aura une superficie totalement différente des autres.

    L'idée n'est pas d'obtenir une valeur exacte mais qui se rapproche, je m'autorise à me tromper lorsque j'aurai déterminé la valeur à ma chambre d'hôtel.

    Un autre exemple m'est venu en tête, je cueille des tomates dans mon jardin et je remplis un bac de ces tomates. Ensuite en rapportant ce bac à ma maison, je trébuche et je fais tomber quelques tomates au sol qui malheureusement s’aplatissent.
    Est-ce que je suis en mesure de savoir quels pouvaient être leur taille, leur poids ?
  • Bravo grayfox : je pense que c'est ce que voulait dire gerard0 par :
    Ne pas confondre les statisticiens avec Mme Irma !

    Quand quelque chose est aléatoire, eh bien, c'est aléatoire ! Le mieux qu'on puisse faire, c'est de trouver la loi...

    Si les valeurs observées varient beaucoup, la meilleure approximation possible au sens des moindres carrés (l'espérance empirique) sera mauvaise, d'autant plus mauvaise qu'on aura peu de valeurs observées.

    Enfin, en tout cas, sans doute que tu as entendu parler de big data : l'idée c'est que quand on est Mr Google, on peut faire des tas de statistiques très fines, avec des tas de recoupements, eux-mêmes calculés automatiquement.

    Quand on peut faire ça, c'est parce qu'on a beaucoup BEAUCOUP BEAUCOUP de données.

    Sinon, on se contente de calculer la moyenne et l'écart-type empirique, et notre estimation se résume à ça.
  • Quand tu as un panier de tomates, si tu as mis les tomates au hasard dans ton panier, celles qui tombent suivent la même loi de distribution que les autres, on peut faire cette approximation.
    Si tu as cueilli d'abord les plus grosses tomates, au fond du panier, puis les plus petites, au dessus du panier, tu as un biais, qu'il faudra essayer de corriger.
    Avec les chambres d'hotel, tu as le même biais. Les chambres disponibles ne sont probablement pas représentatives des chambres déjà louées.

    Si tu fais l'impasse sur ces risques, si tu considères que les données connues sont représentatives des autres données, et si les données connues ont une distribution à peu près 'gaussienne', alors tu peux utiliser la boule de cristal.

    Si par exemple, tu veux estimer 2 valeurs, et que tu connais moyenne et écart-type... on sait que pour une distribution normale, on a 33% des données en dessous de Moyenne -k*ecartType , et 33% au-dessus de Moyenne+k*EcartType (k peut être retrouvé dans des tables).
    Tu vas donc dire que tes 2 valeurs manquantes sont sur ces 2 seuils.

    Et c'est transposable pour n'importe quel nombre de données manquantes.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Bonjour,
    @grayfox : il faudrait que tu recherches et lises des études réalisées pour voir comment on formule des problèmes statistiques dans un cadre général en modélisation.
    Pour les tomates, ce n'est pas bien de ta part de te moquer :-).
    Bon courage.
  • @ lourrran
    J'ai apprécié ton approche, et c'est ce que j'avais en tête. Je te remercie au passage.
    C'est-à-dire de déterminer un intervalle de confiance de la moyenne calculée, pour avoir les bornes dans lesquelles, à un certain niveau de confiance, je sais que les valeurs manquantes se situent dedans.

    Après je voulais appliquer une règle toute bête et qui n'est pas statistique, par exemple utiliser l'écart-type de mon échantillon que je divise par le nombre de valeurs manquantes et j'ajoute cela de chaque côté de l'intervalle.

    Est-ce qu'il n'existerait pas une équation pour trouver les valeurs comprises dans l'intervalle, en utilisant l'écart type estimé ? C'était un peu ça mon exemple des notes. Après je rejoins tout à fait le principe que l'échantillon doit être représentatif de la population, et retrouver justement cette symétrie par rapport à la moyenne.
    Étant donné qu'on se place sur un intervalle bilatéral. Si j'ai mes notes les plus basses ou les plus hautes, ça ne marchera pas.

    @jma
    Merci également pour ton implication, je me suis donc intéressé à la modélisation et les différentes méthodes qui existent.
    Si je reprends mon exemple des chambres d’hôtels, il y a plusieurs approches possibles.

    Si je devais estimer les caractéristiques des chambres qui sont déjà réservées, je partirais sur une classification des hôtels en fonction de leur type de chambres. Et ainsi établir un rapprochement entre les hôtels et appliquer les caractéristiques de l'un par rapport à l'autre, lorsque j'ai une exhaustivité sur un hôtel.

    Du coup la première problématique qui me vient à l'esprit c'est de trouver une classification des chambres d'hôtels selon leur superficie ?
    Si je reformule, pour chaque type de chambres (simple, double, triple...), qu'est-ce que peut faire varier la taille des chambres (la localisation, le nombre d'étoile, la marque hôtelière...)

    Malheureusement j'ai un blocage technique pour réaliser cette classification, est-ce que vous pourriez m'aider à utiliser cette méthode.

    Je vous remercie encore pour votre aide, grâce à vous j'apprends des nouvelles choses.
    Au plaisir de vous lire.
  • Bonjour grayfox,
    Pour le passage de ton post qui me concerne, il me semble que les méthodes d'analyse des données sont les plus indiquées. Il te faudrait utiliser la classification (ex. Classification Ascendante Hiérarchique) pour faire des groupes d'hôtels homogènes. L'analyse discriminate de Fisher ou probabiliste pourraient te permettre de classer un nouvel établissement dans un groupe. Prends ton temps pour regarder comment fonctionne ces méthodes (pose quelques questions). Puis, dis nous, si tu le veux bien, ce que tu as choisi comme, comme dans l'idee :-) du Bac de français : introduction, thèse, antithèse, synthèse et conclusion.
    Cordialement.
    Ajout: ces méthodes peuvent paraître complexes donc je ne sais pas trop où je t'envoies ! Pour les données manquantes qui ne sont pas ta problématique (je pense qu'on l'a établi dans un des post), l'article passant en revue les techniques statistiques actuelles (2018) dans ce cadre a des parties franchement accessibles. Te vois-tu en train de justifier une sorte de bidouillage dans le domaine qui te semblerait plus ou moins logique à un pair, à un collègue ou à un responsable ? Les statistiques sont loin d'être le "far west". Faudrait peut-être arrêter de délirer !
  • Re;

    @jma Du coup, je me suis intéressé à la méthode de classification hiérarchique ascendante, que je trouve super intéressante. Le souci c'est que je n'arrive pas à l'adapter à mon exemple.
    La vidéo que j'ai regardée concernait la classification de villes en fonction des températures observées durant plusieurs mois. Du coup ce qui donne un ensemble de variables quantitatives pour déterminer des classes.

    Mais du coup, par rapport à mon exemple (celui des chambres d'hôtels), j'aurai un mélange de variables quantitatives (superficie,loyer,nombre d'étoiles...) et d'autres qualitatives (localisation,marque de l'hôtel...).

    Du coup comment je fais pour adapter la classification lorsque j'ai un mélange de variables quali et quanti. J'ai vu dans les explications qu'il fallait transformer les qualis en quantis ou inversement, mais je ne vois pas comment c'est possible dans mon exemple.

    Est-ce qu'il faut faire 2 classifications, une avec uniquement des variables qualitatives et l'autre avec des quantis ?

    Merci de ton aide.
  • Bonsoir,
    @grayfox : en effet, la Classification Ascendante Hiérarchique (CAH) est utilisée sur des variables quantitatives. Je te l'ai donnée en exemple parce qu'elle est plus facile à comprendre en me disant : "Mince, il va avoir aussi des variables qualitatives à traiter". Lorsqu'il y a des données mixtes (quantitatives, qualitatives ordinales et qualitatives nominales), une solution habituelle est la classification conjointe . Il s'agit de tout coder en variables qualitatives puis d'en déduire une tableau disjonctif complet (TDC) puis en appliquant une Analyse Factorielle des Correspondances (AFC) ce qui revient à faire une Analyse des Correspondances Multiples (ACM). Grâce à l'ACM, chaque individu (pour toi les hôtels) a des composantes factorielles qui lui sont propres et qui sont quantitatives. A partir de ces composantes factorielles quantitatives, il est possible d'appliquer la CAH ou les centres mobiles pour classifier tes hôtels.
    Désolé pour toutes ces abréviations (ce n'est pas un gag :-)) ce qui rend le message encore plus abscons mais c'est un peu le parcours (pas besoin de fouiller excessivement) pour appliquer la classification conjointe.
    Tu es accrocheur manifestement mais je ne sais si mon post ne va pas te refroidir. Dis-moi.
    A suivre.
    Cordialement.
  • Ces techniques ( CAH , ACM ...) , il me semble qu'elles sont pertinentes surtout quand on est en dimension élevée (beaucoup de caractéristiques connues pour chaque individu). Et un individu pour lequel il manque une caractéristique ne pourra pas être traité, on va le rejeter (ou on va remplacer la donnée manquante par une valeur moyenne, pourquoi pas)

    Ici, je sais que la question a un peu évolué, mais il me semble qu'on parle d'une situation où on connaît très peu de choses sur chaque hotel.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Je ne sais pas : je me base sur l'esprit de la fin de message de grayfox d'il y a six jours.
    Cordialement.
  • Bonjour, @jma
    Merci pour ces explications.
    J'aimerais bien mettre en application les méthodes que tu as décrites.
    Du coup, je vais essayer de décrire concrètement la base de données que je vais utiliser.

    Mes données sont les suivantes.
    Nom de l'hôtel : Hôtel 1
    Marque : marque 1
    Localisation : Paris
    Nombre d'étoiles : 3
    Type de chambre : double
    Superficie : 30 m²
    Prix : 250 € / nuit
    Etage : 4
    Wifi : oui
    Télévision : oui

    Donc ça c'est l'exemple pour une chambre de l'Hotel 1, marque 1. Du coup pour chaque chambre j'aurai les même infos sur l'hôtel, il n'y aura que les informations sur les caractéristiques de la chambre qui seront différentes (type, superficie, prix, étage, wifi, télévision).
    Ainsi, mon approche est de pouvoir expliquer la variable superficie de la chambre d'hôtel. Qu'est ce qui peut faire varier la superficie ?

    Je sais d'avance que le type de chambre est corrélé à la superficie, c'est déjà une classe en soi, puisque qu'une chambre double sera plus grande qu'une chambre simple.
    Mais ce qui m'intéresse c'est pour chaque type de chambre, est-ce que la superficie varie d'un hôtel à l'autre, d'une ville à l'autre...
    Les données sont exhaustives, c'est-à-dire que je me base sur des informations dont je connais toutes les caractéristiques des chambres d'hôtel, s'il me manque une information, je l'ignore de mon échantillon.

    Est-ce que c’est plus clair ?
Connectez-vous ou Inscrivez-vous pour répondre.