Question de logique sur l'ACP — Les-mathematiques.net The most powerful custom community solution in the world

Question de logique sur l'ACP

Bonjour,

Il me semble qu'il y a quelque chose qui m'échappe complètement dans la technique d'Analyse en Composantes Principales.

On construit une matrice de variance-covariance à partir de la matrice des données et on en calcule les valeurs propres, soit.

Ensuite, il est toujours question d'axes associés aux valeurs propres, sur lesquels on projette pour obtenir des dispersions maximales. Phrase-type, par exemple "le premier axe est celui associé à la plus grande valeur propre".

Pourquoi "axe" ? Qu'est-ce qui me garantit que la plus grande valeur propre n'a pas une multiplicité supérieure à 1 ? Pourquoi fait-on toujours comme si la matrice de variance-covariance (disons de taille p) avait p valeurs propres distinctes, conduisant chacune à un axe ?

Je ne sais si je suis bien clair..., et je suis désolé si la réponse est évidente, mais ça ne me saute pas aux yeux.

Réponses

  • Bonjour.

    Sans être un spécialiste de la question, je tente une réponse : C'est parce que ça n'arrive quasiment jamais. Les matrice obtenues après recueil des données réelles et centrage-réduction ont très peu de chances d'avoir deux valeurs propres égales, encore moins que ce soient les deux premières. Et si par hasard c'est la cas, on aura un plan principal.
    Mais même si les valeurs propres les plus élevées sont différentes, si elles sont très proches, l'ordre n'est pas très important, il pourrait changer avec un autre recueil de données (*).

    Des connaisseurs auront peut-être un autre avis.

    Cordialement.

    (*) C'est une des bases des stats descriptives que des résultats légèrement différents auraient pu apparaître avec un recueil de donnée différent, dès qu'il n'est pas exhaustif.
  • Je pense que c'est tout simplement parce que tout est aléatoire dans cette histoire.

    La matrice de covariance empirique obtenue est aléatoire.

    Or la plupart du temps, une matrice symétrique est à valeurs propres distinctes (elle l'est sauf si le discriminant de son polynôme caractéristique est nul, donc presque toujours, sauf en dehors d'une hypersurface)

    En tous cas, si la matrice de covariance empirique est à densité, la probabilité qu'elle ait des valeurs propres multiples est nulle.

    C'est pour ça qu'on fait comme si c'était le cas : parce que ça l'est avec probabilité =1.
  • marsup a écrit:
    si la matrice de covariance empirique est à densité, la probabilité qu'elle ait des valeurs propres multiples est nulle.

    Là, je ne saisis pas ce que ça veut dire... Et, en admettant quand même que j'ai compris la notion de "matrice de covariance empirique à densité", pourquoi serait-ce le cas quand on a $p$ échantillons de $n$ réalisations de $p$ variables aléatoires, et qu'on forme une matrice de variance-covariance à partir des données ?

    Il me semble que, dans tout ce que j'ai lu, pour $p$ variables aléatoires, on parle de $p$ valeurs propres et de $p$ axes, qui permettent de reconstituer un espace $\mathbb{R}^p$
  • L'ensemble des matrices de taille $n \times n$ ayant une valeur propre multiple est négligeable pour la mesure de Lebesgue, puisque c'est une variété algébrique affine de dimension $< n^2$ (lieu d'annulation du discriminant du polynôme caractéristique).
  • Quand tes $p$ échantillons sont donnés, ta matrice de covariance est fixée.

    Mais avant que ceux-ci ne te soient donnés, celle-ci est pour toi une variable aléatoire sous forme matricielle (chacun des $p\times p$ coefficients est aléatoire)

    Sauf exceptions, il n'y a que peu de chances que deux de ses $p$ valeurs propres (déterminées en fonction des coefficients) tombent sur la même valeur, comme il y a peu de chances que $p$ variables normales ou autre densité tombent deux fois sur la même valeur.
  • D'accord, marsup, je comprends bien la notion de variable aléatoire matricielle, mais le fait "qu'il y ait peu de chances que" ou qu'un ensemble de matrices soit "négligeable", ne me paraît pas justifier qu'on ne se préoccupe pas du cas où des valeurs propres sont multiples.

    Toutefois, à bien retourner le problème, je pense que ma question était sans objet... ou mal posée, ou irréfléchie, au choix. Mais, pour en être sûr, il faut que je retourne à la théorie de l'ACP, pour bien comprendre ce qu'on y fait et comment on procède.

    Il me semble en effet que, finalement, dans l'ACP, on se fiche pas mal que les valeurs propres soient distinctes ou multiples ; je veux dire que si la plus grande valeur propre est, mettons, double, alors elle va déterminer un sous-espace propre de dimension 2, très bien ; mais cela n'est pas un souci, car ce qu'on va faire, c'est simplement prendre 2 axe orthogonaux dans ce sous-espace, qui constitueront les deux premiers axes de l'ACP. Si c'est bien vrai, ça devrait se comprendre en revenant à la théorie.

    Bon, j'ai donc peut-être mis la charrue avant les boeufs...
  • Je ne suis pas trop d'accord avec toi, même si je ne suis pas expert du tout.

    Mettons qu'on ait deux variables : taille/poids.

    Les deux sont assez fortement corrélées positivement.

    Dans l'ACP, il faut s'attendre à ce que l'axe principal fasse croître les deux variables. (en gros : elle donne une variable qui parle de la taille de l'individu)

    L'axe secondaire est intéressant aussi, car il fait croître l'un et décroître l'autre (comme l'IMC, mais linéaire) : il nous dit si chaque individu est plutôt lourd pour sa taille ou inversement.

    Si la matrice de covariance a une valeur propre double, ça veut dire qu'on ne peut pas distinguer les deux axes, et que même, on pourrait indifféremment choisir n'importe quel couple de droites orthogonales.

    C'est ce qui se passe si on fait l'ACP d'un couple indépendant : il n'y a alors rien à dire.

    Justement, en général, ce n'est pas ce qui se produit.

    Pourquoi ? Parce que, comme on te dit : une matrice symétrique a presque toujours ses valeurs propres distinctes, ce qui permet de les ordonner strictement, et de numéroter ses sous-espaces propres (des droites) par ordre de signifiance.

    Presque toujours, ça veut dire que si la matrice de covariance est générique (notamment aléatoire à densité) on est (presque) sûr que ses valeurs propres sont distinctes deux-à-deux.
  • Et moi, je ne suis pas trop convaincu... Certes, je suis d'accord qu'en dimension 2, en cas de couple indépendant, on ne va pas pourvoir trouver d'axe d'orientation au nuage de points; mais quand on travaille avec plusieurs variables, qu'est-ce qui empêche que la plus grande valeur propre apparaisse en double, les autres étant distinctes ? Le fait qu'on a "presque toujours" la bonne configuration ne me semble pas un argument, mais alors pas du tout... Est-ce que ça ne signifierait pas plutôt que la covariance entre deux variables est strictement nulle ?

    Ce qui m'amène à une question subsidiaire : soit une matrice semi-définie positive ; on calcule ses valeurs propres et il se trouve que 2 valeurs propres sont identiques ; est-ce que cela signifie quelque chose dans la structure des colonnes de la matrice ? Vous me direz que je n'ai qu'à chercher un exemple...
  • Si on a 2 valeurs propres égales et non nulles, ça veut dire qu'on a le choix. La méthode n'a pas déterminé un axe n°1 puis un axe n°2, mais un plan. Au lieu de déterminer l'axe associé à la plus grande valeur propre, on prend un axe au hasard associé à cette plus grande valeur propre. Et dans la foulée, on prend un axe perpendiculaire à l'axe qu'on vient de prendre. C'est pas terrible, puisque l'interprétation va être ardue. Mais comme le cas n'arrive statistiquement jamais, et encore plus rarement sur les premiers axes, on s'en moque.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Je suis persuadé qu'il y a une autre raison que le "statistiquement jamais" faisant que l'on peut toujours déterminer précisément un premier axe principal, que la plus grande valeur propre soit simple ou (par hasard) multiple.

    Mais je reconnais que continuer à discuter ainsi, en dehors d'un support mathématique précis, n'est pas efficace, et je suis désolé d'avoir - un peu par fainéantise - posé une question aussi floue.

    Je vais d'abord revenir aux sources avant d'en venir aux questions, et la page Wikipedia sur "principal component analysis" me semble à première vue assez détaillée pour pouvoir bien comprendre la procédure mathématique (bizarre qu'il faille la plupart du temps revenir à une version anglaise pour avoir des informations précises, mais ceci est un autre point).
  • Bonjour.

    L'un des principaux objectifs de l'ACP est de remplacer de nombreuses variables non indépendantes (si elles sont indépendantes, ça ne sert à rien) par de nouvelles variables, combinaisons linéaires des autres et en moins grand nombre (parfois 2 ou 3, généralement moins d'une dizaine), portant l'essentiel de l'information. Donc s'il y a deux ou trois dimensions de valeur propre supérieure aux autres, ça ne pose aucun problème.
    Comme on ne rencontre jamais ce cas en pratique, par simplification on parle de l'axe correspondant à cette valeur propre, même si cet "axe" pourrait être un plan, voir un sous-espace de dimension 3.

    Pour un statisticien praticien, ta question est un pure pinaillage de matheux; sachant qu'il sera bien évidemment capable de s'adapter si par hasard l'espace propre n'était pas de dimension 1.

    Cordialement.

    NB : Inutile de chercher une autre raison, les matrice obtenues dans le réel n'ont aucune raison d'être particulières, donc à priori, l'espace propre de dimension 2 n'a rien d'impossible.
  • Bonsoir
    La question est intéressante. Simple remarque, même chez les auteurs spécialistes en analyse des données et pinailleurs, ils ne notent pas d'inégalités strictes mais plutôt $ \lambda_{1}\geq\lambda_{2}\geq\cdots\geq\lambda_{P}>0 $ en ce qui concerne les valeurs propres.
    Cordialement.

    Ajout : il est d'usage de mettre des majuscules à ce domaine des statistiques pour spécifier celui-ci sinon, en statistique, tout est analyse des données. Merci quand même.
Connectez-vous ou Inscrivez-vous pour répondre.
Success message!