Méthode acp pour un projet ?

Bonjour à tous

Voilà je réalise mon premier mémoire en analyse de données statistiques et je voulais savoir si certains pouvait m'aider à compléter mon ACP. Pour l'instant j'ai réalisé cela :
_Justification choix ACP normée
_Tableau des valeurs propres et choix axes (méthode 1)
_Graphique des valeurs propres et choix axes (méthode 2)
_Cercle des corrélations axe 1,2
_Nuage de points axe 1,2
_Cercle des corrélations et nuage de points sur l'axe 1,3

C'est à peu près tout ce que nous avons vu en cours et voilà je voulais compléter par d'autres choses qui peuvent 'éventuellement être intéressantes.
(Sans parler de classification que je ferai dans une autre partie).
Cordialement.

Réponses

  • Il n'y a pas un cheminement tout tracé qui va du départ à l'arrivée. Tu traites des données, dans un domaine que tu dois connaître un peu. Si c'est la biologie par exemple, tu as besoin d'avoir des bases en biologie. Selon les résultats que tu obtiens, tu sais donner un sens à chaque axe, ou pas.

    Selon les données que tu analyses, selon la dimension de tes données au départ, regarder l'axe n°4 peut avoir du sens, ou pas ... C'est toi qui a la boule de cristal devant les yeux ; nous, on n'a comme information que ce que tu lis dans ta boule de cristal et que tu nous dis.
    Donc rien.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • D'accord de ce que je comprends il n'y a pas de "chemin tout tracé" tout dépend des données. Mes données sont issues de l'OCDE donc du domaine économique.

    Les variables sont les suivantes.
    • Chomage : taux de chômage
    • a.prim : pourcentage d’actifs dans le secteur primaire
    • a.sec : pourcentage d’actifs dans le secteur secondaire
    • pib : produit intérieur brut (par habitant)
    • fbcf : formation brute de capital fixe (par habitant)
    • infl : hausse des prix
    • recc : recettes courantes (par habitant)
    • m.inf : mortalité infantile
    • prot : consommation de protéines animales (par habitant)
    • nrj : consommation d’énergie (par habitant)

    Effectivement et merci pour ta remarque j'ai affirmé avoir sélectionner l'axe 4 sans pour autant l'expliqué. Je joins le cercle sur les axes 2-4.

    Autre problème j'ai une variable "Année" qui n'est pas quantitative et qui apparaît sur mon cercle : comment la retirer ?
    Cordialement !119044
  • Pourquoi dis-tu que la variable année n'est pas quantitative ?
    Pour moi, c'est la plus parlante sur ce graphe.
    Elle montre l'axe du temps. Les années récentes sont en haut à droite, et donc les années anciennes en bas à gauche.
    Le taux de chômage augmente au fil des ans.
    Le pourcentage d'actifs dans le secteur secondaire diminue au fil des années... et encore plus flagrant, le taux de chômage est diamétralement opposé au pourcentage d'actifs dans le secteur secondaire.

    Voilà les 3 informations qui ressortent de ce graphe.
    Tu pourrais croiser l'axe 1 et l'axe 4, ou l'axe 2 et l'axe 4, cela peut aussi être parlant.

    Quel est le poids des axes 1 et 2. Si ces poids sont faibles disons 25% et 22%, alors on a un total de 25+22+17+9=73% , et dans ce cas, tu pourrais regarder aussi l'axe 5.
    Si avec les 4 premiers axes, tu es déjà à 95%, l'axe 5 n'apportera rien.

    Si tu ne veux pas voir les années, la solution, c'est de ne pas les mettre dans les données en entrée !

    Si tu veux, pour t'entrainer à analyser des données, tu peux aussi garder les mêmes données, mais numéroter les années à l'envers. 0 à la place de 2020, 1 à la place de 2019, 2 à la place de 2018, etc etc
    Et refais tout pareil, pour voir ce que ça donne.
    Si dans ce graphe, l'axe des années est exactement inversé, c'est que je n'ai pas totalement oublié comment ça marche. Si ce n'est pas exactement inversé, c'est que je suis à la ramasse ;)
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Je te remercie pour la remarque sur la variable "Année", je n'ai clairement pas vu les choses sous cet angle. En fait ici on a un jeu de données ou la variable Annee prend 4 valeurs pour différents pays : 1975, 1977, 1979, et 1981 donc je pensais pas qu'on pouvait la considérer comme quantitative (en même temps j'ai demandé à ma prof et elle ne m'a pas contredit sur ce point) et comparer son évolution à d'autre variables dans le temps.

    Aussi j'ai sélectionné les 4 premiers axes car j'obtiens près de 80% avec ces 4 axes. Il n'y a pas de chiffres précis mais ici c'est suffisant je pense.

    Du coup merci je vais ajouter des commentaires sur la variable Année et sur l'axe 4 que j'avais omis.

    Après j'ai du mal sur les nuages de points à identifier les points à sélectionner pour l'analyse car certains sont assez bien positionnés mais si je regarde dans le tableau des données ils sont moins bien positionnés que d'autres. Par exemple regarde mon commentaire sur ce nuage de points :

    "Les numéros de pays qui se distinguent sont les : 39, 45, 47, 49 et 50. Le premier fait référence à l’Irlande en
    1979, les deux suivants sont pour le Japon en 1975 et 1979 et les deux derniers concernent la norvège et sont
    ceux qui ont le taux d'investissement le plus élevés car ils sont situé le plus haut et assez proche de la direction indiqué par la
    flèche fbcf."
    Pour faire cette analyse j'ai un peu triché car je me base sur les chiffres du jeu de données.119072
  • Pou revenir sur l'analyse des axes j'ai croisé l'axe 2 et 3 et voilà ce qui ressort si j'ai bien compris :

    _Le niveau d'investissement évolue dans le sens contraire au nombre d'actif dans le secteur secondaire. (Possiblement due à l'émergence du secteur tertiaire à cette époque).
    _Le taux de Natalité augmente également à mesure que le nombre d'actif dans le secteur secondaire diminue.(Due au risque métier peut-être)
    _Il y a une corrélation positive entre Année et chomage, on en déduit donc le chômage a progressivement augmenté au fil du temps.

    C'est bien cela qu'il faut retenir de ce cercle de corrélation ?

    [small]Euh si j'en fais trop n'hésite pas à me le dire.[/small]119082
  • Dans le graphe axe 1 // Axe 3, les points qui me paraissent les plus significatifs :
    Sur l'axe 1 , on a clairement une mesure de la richesse : PIB, NRJ, Protéines animales d'un côté, inflation, secteur primaire, mortalité infantile , chômage de l'autre.
    Et sur cet axe 1, on a la Suède, la Norvège, le Canada, la Belgique, les EU du côté 'Richesse', et la Pologne ou dans une moindre mesure l'Espagne ou l'Irlande du côté 'Pauvreté'.

    Et l'axe des années va plutôt vers le côté 'Richesse'. Cohérent


    - L'axe année qu'on retrouve : il est orienté vers 'en bas à droite' du graphe.
    Et bonne nouvelle, on a beaucoup de pays où les 4 points sont plus ou moins alignés, parallèlement à cet axe des années, et dans le même sens.
    Typiquement, Italie Suède, Canada, Norvège ... et j'en oublie.
    Et comme par hasard, pour la Pologne, c'est plutôt l'inverse. La Pologne est pauvre, et elle régresse ?

    A l'opposé de l'axe des années, on a l'axe de la Natalité, ou du secteur primaire : La natalité et la part du primaire diminuent au fil des ans.


    Il manque quand même le graphe qui est en principe le plus pertinent, le graphe avec les axes 1 et 2.
    L'axe 1 pèse 41% du nuage, plus du double par rapport à l'axe suivant. Il faut déjà faire les graphes avec axe 1 vs Axe 2 , Axe 1 vs Axe 3, et pourquoi pas Axe1 vs Axe 4

    Axe 1 + Axe 4 , la somme des poids donne .... un résultat plus élevé que Axe 2 + Axe 3. Donc le graphe est théoriquement plus pertinent.

    Sur l'axe 2, peut être qu'on verra une opposition Nord Sud ? ou une opposition Europe / reste du monde ?


    Tu dis.
    Le taux de natalité augmente quand la part du secteur secondaire diminue.
    Bof.Vraiment pas convaincu.

    Dans les données retenues, on a la part du primaire et la part du secondaire. On n'a pas la part du tertiaire.
    Normal. Si on avait les 3 indicateurs, il y aurait redondance dans les données.
    Mais je pense qu'on y verrait plus clair avec la part du primaire et la part du tertiaire.
    Quand le secondaire est élevé, c'est difficile de savoir si c'est un indicateur de modernité (le secondaire remplace le primaire) ou un indicateur de sous-développement (le tertiaire n'est pas encore important)
    Si tu en as la possibilité, il faudrait faire ce changement.
    On voit sur l'axe 1 que secteur primaire et secteur secondaire sont tous les 2 du même coté, tous les 2 du coté pauvreté. Je sur-interprète un peu, certainement. Mais sur cet axe richesse/pauvreté, c'est certain que le secteur tertiaire serait totalement du côté 'Richesse'.

    Ici, pour revenir sur la natalité, je ne vois qu'une chose à dire : Le taux de natalité est lié à la pauvreté, il est sur la droite quand on regarde l'axe 1.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Je suis tout à fait d'accord pour l'analyse de l'axe 1. Concernant la Pologne tu as également vu juste en vérifiant sur les données on observe que son Pib diminue au fil des ans. Dommage mais je peux pas modifier les données pour ajouter le secteur tertiaire. Maintenant j'y vois beaucoup plus claire grâce à tes analyses, j'ai rédigé une analyse pour l'axe 1 et 2 dis-moi ce que tu en penses.

    On remarque que les pays qui ont le plus haut niveau de chômage sont les numéros 24 et 40 qui représente l’Espagne et l’Irlande tout deux en 1981. Par ailleurs les numéros 57, 58, 59, 60 ont un niveau de Natalité, de mortalité infantile, d’inflation et d’actif dans le secteur primaire très élevés. Ces numéros représentent à eux quatre le Portugal sur quatre années différentes de 1975, 1977, 1979, 1981. On peut donc constater que ce pays n’a pas suivi de réel développement. En effet rappelons que les variables que nous avons cité pour le Portugal sont toutes corrélés négativement au PIB, et au recette courantes notamment donc on en déduit que le PIB portugais a peu évolué sur les quatre périodes considérés.
    A l’inverse ceux qui ont le PIB le plus élevé sont les numéros 52, 67, 68 qui représentent respectivement la Norvège en 1981, la Suède en 1979 et la Suède en 1981. Avec le PIB le plus élevé qui est celui de la Norvège en 1981 car il est celui qui est le proche du bout de la flèche PIB.119138
  • PO : Portugal, ou Pologne ?

    Tu dis :
    Avec le PIB le plus élevé qui est celui de la Norvège en 1981 car il est celui qui est le proche du bout de la flèche PIB.
    Non.
    Tu as accès aux données 'réelles' et en lisant les données réelles, tu peux dire quel pays, quelle année correspond au PIB le plus élevé. En lisant les données désagrégées, ok.
    Mais en lisant ce graphique, on ne peut pas dire ça.
    On peut dire que :
    Le point (Norvège 1981) est proche des extrémités des flèches PIB ou NRJ ou encore RECC, donc ce point doit être très bien classé sur ces 3 critères.
    Une ACP , ça ne sert pas à analyser quel pays est le premier sur tel critère. Pour ça, on regarde les données initiales, avant traitement, et on a tout ce qu'on veut.

    Une ACP, ça sert à identifier les données qui sont redondantes, ou corrélées, et ça sert à ajouter de nouveaux axes, plus parlants.
    Ici, sur l'axe 1, on a un résultat flagrant, on a un axe Pauvreté/Richesse flagrant.
    On n'avait pas de données 'Richesse vs Pauvreté' dans les données de base, on en a maintenant, grâce à l'ACP, en mesurant l'abscisse de chaque point sur cet axe 1. C'est à ça que sert une ACP, : faire apparaître des axes plus synthétiques que les données originelles.

    Sur l'axe 2, ce qui ressort, c'est l'opposition Chomage/Secteur Secondaire. Ces 2 flèches sont quasiment verticales, diamétralement opposées.
    On peut même dire que c'est l'opposition (Chomage,Année)/ Secteur Secondaire.

    On voit nettement la chute du secteur secondaire et l'augmentation rapide du chomage dans différents pays ces pays, entre 1975 et 1981.
    En particulier, la Russie, ou l'Espagne : les 4 points sont plus ou moins alignés, il partent du bas du graphique (Secteur Secondaire développé) vers le haut du graphique(chômage).
    On voit aussi les pays bien connus pour la force de leur secteur secondaire ; Allemagne, Japon, Autriche. Ces 3 pays sont tout en bas du graphe. Chez eux aussi, les points sont plus ou moins alignés, mais ils ne sont pas alignés en direction du point 'chomage', ils sont alignés en direction des points PIB, NRJ ... ils sont alignés en direction des indicateurs de richesse.

    fbcf : je ne connais pas assez le domaine, disons qu'en langage courant c'est une mesure de l'épargne(?)
    Comme la flèche est assez longue, et parfaitement verticale, il faut l'intégrer dans cette analyse de l'axe 2.
    L'axe 2 mesure l'opposition (secondaire+fbcf)//(année+Chomage)
    Mais ce n'est pas une mesure de la richesse. La richesse est mesurée sur l'axe 1.
    En haut à droite, chomage et pauvreté ; en haut à gauche : beaucoup de chomage mais des mesures pour accompagner ce

    Je ne connais pas assez les méthodologies. Si un employé d'usine est au chomage , est-ce qu'il est compabilisé comme Secteur Secondaire et Comme Chomeur, ou bien seulement comme Chomeur.
    En d'autres mots, est-ce que Secteur Primaire +Secondaire+Tertiaire=100 , ou Primaire +Secondaire+Tertiaire+Chômage=100
    Au vu des graphes, ce serait plutôt l'option 2.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Bonjour

    Contrairement à ce que vous dites, je ne traiterais pas la variable Année comme une variable quantitative mais qualitative en la faisant apparaître sur le plan (chaque année est le point qui est centre de gravité des observations correspondant chacune à la même année). Je vais à "rebrousse poil" de ce qui a été dit (désolé) mais il y a bien un schéma de méthodologie pour interpréter des analyses factorielles. Je t'invite à consulter les livres de Jérôme Pagès (Dunod et PUR) surtout les études de cas. Les indications sont trop nombreuses pour que je les liste dans un post (règle de Cattell, qualité de représentation des variables, contributions des individus, individus "parangon", choix des indidus illustratifs, ellipsoides de confiance...etc. Cela pourrait rapporter des points. En général, on complète l'ACP avec une CAH en fin d'étude.

    Cordialement.
  • Si Jma et le prof disent que les années doivent être traitées comme une variable quali, ils ont raison. Je n'ai aucune légitimité sur le sujet. C'est un domaine que j'ai étudié quand j'étais étudiant (il y a plus de 30 ans...) mais que je n'ai jamais pratiqué. Et effectivement, ACP et CAH, c'était déjà les 2 outils associés.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • C'est pas grave lourrran, tu as déjà fait beaucoup. Merci pour ces ajouts jma. J'ai mieux compris à quoi servait une ACP et qu'est ce qu'on attendait comme analyse donc c'est déjà très bien. Après concernant la CAH c'est vraie juste après l'ACP je comptais faire la CAH.

    Donc merci pour vos précisions je m'occupe du reste.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.