Analyse d'un vrai jeu de données

student2 · February 2018

Bonjour,

Souhaitant réaliser ce TP: https://github.com/wikistat/Exploration/blob/master/Adult-Census/Explo-R-AdultCensus.ipynb je me poses pas mal de questions.

Je vous joins donc le pdf avec les commandes executées et les questions numérotées afin que vous ayez accés directement aux graphiques.

Comment répondriez vous aux questions ?

student2 · February 2018

Voici ce que j'ai répondu (pour les questions non listées je n'ai pas trouvé de réponses). Pouvez vous me corriger, et donner si besoin des compléments de réponse ?

Merci d'avance

1) La population étudiée est celle des habitants des USA.
L'échantillon est donné par 29825 observations.

2)
- On passe au log certaines variables: capitalGain et CapitalLoss sont originellement quantitative puis en passant au log on obtient LcapitalGain et LCapitalLoss. Pourquoi ? Pour limiter la dispersion des grandes valeurs.
- D'autres variables sont rendus qualitatives par regroupement par classe.

3)a) On ne peut pas dire grand chose à part que la plupart des hommes sont des "husband" et les femme des "Wife". Ces 2 lignes n'ont j'imagine aucun intérêt ?

b) LA relation entre education, educNum est quasi déterministe/fonctionelle mis à part pour la modalité Dropout. Là encore les liens étant très fort il y a une très grande dépendance entre ces deux modalités.

c) La encore les modalités Wife et Husband sont très liées à al modalité married

d) Les données sont très déséquilibrés puisque l'on a beaucoup plus de "white"

4) Je ne sais pas .... L'ACM va surement placé de manière très proche sur le graphique les modalités liée (celles décrites précédemments)
Quel est le problème plus spécifique des variables relationship et sex?: Etant donné le fort désequilibre entre "MAle" et "Female" (modalité beaucoup plus rare) cette dernière modalité va se retrouver très loin du centre de gravité ?

5) Il s'agit d'un graphe de profil ligne et permet de voir visuellement si les deux modalité male et female ont la même distribution/influe de la même manière sur "occup". Graphiquement celà serait le cas si les deux profils étaient les mêmes (on proposerait alors l'hypothèse d'indépendance de la variable occup par rapport à celle de sex.

On fait un test d'indépendance du chi2, étant donné que la p-value est très petite (<0.05) on rejette le test H0 d'indépendance et on adopte l'hypothèse alternative (ie) il y a sans doute dépendance entre les deux modalités.

6) Les deux boxplot étant quasi identiques celà signifie que les distributions de Final sampling weight sont identiques quel que soit la modalité de la variable Income. On a donc une distribution équilibrée de la classe de sortie pour cette variable.

7) On remarque que les gros salaires (income ) sont plutôt assimilés au personnes d'un certain age et ayant une educNum élevée.