Exploration de données - étude de cas

Bonjour à tous
Je travaille sur une analyse de données, et je souhaiterais pouvoir faire ressortir des informations à partir de mon échantillon.

Je vous explique le contexte de mon étude (c'est un exemple).
Je dispose d'une base de données avec des informations sur les entreprises en Île de France.
Je souhaiterais étudier au sein de ces entreprises, le parc informatique et notamment la répartition du type de PC qui sont utilisés par les salariés.
Par exemple : PC sophistiqué (processeur puissant...), PC portable, PC standard, Tablette.
Ainsi, je me pose différentes questions, pour savoir d'une entreprise à une autre, de quoi va dépendre la répartition du type de PC.
Par exemple, la taille de l'entreprise, le domaine d'activité, la géolocalisation, le CA....

Et donc je ne sais pas quelle méthode utiliser pour faire ressortir ces informations.

Réponses

  • Bonsoir,
    Peut-être, faut-il faire appel à la Sainte Trinité ? De l'ACP, de l'AFC et de l'ACM en transformant certaines variables en variables qualitatives mais ce n'est pas la seule façon de répondre. Cela serait bien de savoir ce qu'il y a mathématiquement derrière les méthodes utilisées.
    A suivre.
    Cordialement.
  • Merci beaucoup pour ta réponse.

    Le souci c'est que je ne sais pas pas où commencer. Les variables dont je dispose sont à la fois qualitatifs et quantitatifs et je ne suis pas sûr de pouvoir transformer les qualitatifs en quantitatifs.

    Par exemple la localisation, c'est une information qualitatif est qui ne peut pas être transformé en quantitatif (il me semble ?), et j'aimerai utilisé cette information telle qu'elle, pour savoir si la localisation va déterminer un rôle sur la répartition des PC au sein d'une entreprise.
    D'ailleurs je voudrai vérifier ce lien statistiquement et aussi pouvoir faire de la prédiction.
  • Bonjour,

    Quels bagages as-tu en statistique ?

    Cordialement.
  • J'ai suivi des cours de statistique après le bac mais pas à un niveau très élevé.
  • Je suis un peu embêté car les méthodes, que je peux te conseiller (ex. régression logistique), nécessitent quand même un petit niveau de départ.
    Cordialement.
  • Un petit descriptif de ce que j'ai pu voir.

    L'Anova à un facteur, l'ACM et l'ACP sous SPAD, les tests statistiques d'hypothèse (comparaison de deux moyennes...).
  • Juste un conseil (les conseilleurs ne sont pas les payeurs donc je ne risque rien ;-)) : intéresse-toi à la régression linéaire multiple et méthodes associées pendant un temps fixé d'avance pour voir si tu n'es pas complètement dépassé. Pour cela, tu peux utiliser le site (pour moi de confiance) http://wikistat.fr/. Ensuite, tu aviseras ?
    Bien cordialement.
  • Merci de ton conseil, j'ai regardé sur le site wikistat et pour être honnête, je n'ai pas tout compris. C'est très théorique.

    Du coup, j'ai préféré regarder quelques vidéos qui expliquaient la démarche et qui me semblent plus ludiques pour apprendre que de lire un polycopié avec beaucoup de notations scientifiques.

    Je pense avoir compris la démarche qui est de mettre en relation les différentes variables qui pourraient expliquer une autre variable dans une forme d'équation.

    Ce qui me manque c'est ce sont des exemples d'applications concrets, qui me permettraient d'adapter à mon cas de figure. D'ailleurs dans l'explication de la régression multiple, il est question d'une variable quantitative qui doit être expliquée par n variables quantitatives explicatives.
    Est-ce que ça correspond à mon cas ?
  • Non car, si j'ai bien compris, ta variable à expliquer est qualitative (types de pc) donc il faudrait utiliser la régression logistique multinomiale qui fait partie du modèle lineaire généralisé comme la régression multiple linéaire. Il doit y avoir sûrement pour comprendre ce genre d'approche des aides sur le web pour que tu puisses réaliser tout cela (ce ne sont que des équations en fait).
    Bon courage.
  • En oubliant l'explicatif et le prédictif, tu peux faire quelque chose de correct avec une ACM avec le type de pc en variable illustrative et une classification sur variables qualitatives.
    Bon.courage.
  • Merci beaucoup de ton aide.

    La finalité de cette étude, c'est au final de pouvoir estimer des données manquantes grâce aux informations dont j'ai connaissance.

    Je m'explique :

    Je dispose d'une base de données sur les entreprises avec un niveau de détail sur les PC (type,prix,capacité de stockage,poids,couleur,marque...).
    Je voudrai utiliser ces informations pour faire des estimations pour d'autres entreprises pour lesquelles je ne dispose pas d'un niveau de détail des PC.
    L'idée serait de dire pour une nouvelle entreprise qui n'est pas répertoriée dans ma base de donnée, je peux reconstituer les informations sur les PC, à partir de ma base.
    Pour ce faire, je dois savoir qu'est-ce qui va être déterminant dans la prédiction des données manquantes.
  • Bonsoir,
    Juste un petit rectificatif on parle de "données manquantes" lorsque, sur un ensemble d'individus, on n'a pas les valeurs dans le fichier dans son entièreté.
    D'après ce que tu m'expliques : c'est bien un travail de régression qu'il faut que tu fasses et on en revient à mon antépénultième post.
    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.