Analyse de données

Bonjour,

Je m'entraîne à l'analyse de données sur le jeu ci-joint. Il s'agit de prédire l'embauche (ou non: variable binaire 1=embauche, 0= non embauche) des individus (variable 'embauche') sur la base d'un certain nombre de variables (spécialité, couleur des cheveux, age, diplôme, note au test, etc ....). Voici un apercu des premières lignes:
https://snag.gy/hXDq6d.jpg

A-Préparation du jeu de données

En manipulant le jeu de données (environ 20000 données) je m'aperçois de certaines incohérences (table et graphes à l'appuie à la fin du document listé selon les numéros des questions correspondantes) :

1) Que la variable note peut prendre des valeurs allant de 8 à 140 alors que la notation est sur 100. En regardant de plus près je vois que la médiane et la moyenne tournent autour de 75 (/100). De plus l'histogramme des notes présentent une tête en cloche type Gaussienne. Je me dis qu'il y a peut être moyen de normaliser ces notes de manière à garder une borne supérieure de 100, en respectant la distribution et en essayant de conserver la "distance" entre les notes. Les enseignant connaissent surement une solution, que feriez vous ? Est ce que multiplier les notes par un facteur 100/140 est une bonne idée ? Y a t'il plus malin

2) qu'il y a environ 5% d'individus qui possèdent au moins une valeur manquante sur l'un des attributs. J'ai décidé de les supprimer ne sachant pas trop quelle imputation je pourrai faire. Avez vous une meilleure idée sur ces données ?

3) Que parmi les gens qui postulent au travail de "prospecteur de richesses naturelles", beaucoup ont moins de 18 ans malgré des diplômes allant de bac à doctorat. J'ai donc pensé fixé la limite inférieur de l'obtention du bac à 16 ans et ai supprimé les individus ayant un age inférieur à 16+annee_diplome (cette bariable étant de 0 pour le bac, 3 pour licence, 5 pour master et 8 pour doctorat). Qu'en pensez vous ? Ca me supprime environ 1000 individus à nouveau...


B- Description du jeu de données

4) Quels graphiques vous semblent pertinents pour décrire les données? Quand on me demande de décrire un jeu de données je ne sais généralement pas quel démarche précise adopter...

Voici comment j'ai raisonné, je me demande d'abord quels types de variables je dispose:
On a:
* des données quantitatives
- discrètes: âge,exp
- continues: salaire, note
* des données qualitatives
- nominale: cheveux, specialite, sexe,dispo, embauche
- ordinale: diplome

Je fais donc les graphiques habituels (analyse univariée puis bivariée) dont certains ne me semblent pas forcément donner beaucoup d'infos.

B-1 Analyse univariée

- Pour les données qualitatives: des barplot. Je ne vois pas trop quelles infos je peux tirer à part constater le deséquilibre dans la classe à prédire 'embauche'. (je ne trouve pas beaucoup plus de choses à dire)
https://snag.gy/ICvaSL.jpg

- pour les données quantitatives discrètes: encore des barplots. On a des formes de cloches (types gaussiennes) mais what else ?
https://snag.gy/Do3wXk.jpg

- pour les données quantitatives: des histogrammes. Cette fois ci j'ai différentié selon la variable à prédire (0 en bleu et 1 en orange). Cette fois ci c'est plus intéressant, on voit bien qu'aucunes des variables quantitatives ne permet de discriminer l'une des classes car elles ont la même forme et se confondent presque. Celà signifie t'il que ces caractères ne sont pas importants ?
https://snag.gy/7RzIoa.jpg


Annexe

*1 et 3
https://snag.gy/BuX87t.jpg

https://snag.gy/0OcU5q.jpg

Réponses

Connectez-vous ou Inscrivez-vous pour répondre.