R2 = 0.9 mais mauvaise régression

alkin · May 2020

Bonjour,
j'ai un souci d'interprétation dans un projet de statistiques. Je travaille sur les données cookie de la librairie PPLS pour ceux qui connaissent. Le jeu de donnée se caractérise par 700 variables explicatives pour 72 observations. On est donc dans le cas ou l'hypothèse de plein rang n'est pas vérifiée pour une régression linéaire multiple.
J'ai effectué une régression linéaire multiple sur ce jeu de données en ne conservant que les 70 première variables (afin d'avoir justement cette hypothèse de plein rang) et je ne sais pas trop comment interpréter les résultats :

Residual standard error : 0.4865 on 1 degree of freedom
Multiple R-squared = 0.998
F-statistic = 65.29 on 70 and 1 DF, p-value = 0.09814

Aucun coefficient n'est significatif avec un test de Student effectué pour chaque coefficient et le test de Fisher rejette aussi la significativité global du modèle. Pourtant le R² est extrêmement élevé. Comment cela s'explique-t-il ? Le test de [large]F[/large]isher prend le pas sur l'interprétation du R²et il ne sert à rien de le considérer si le test n'est pas concluant ?

[En toute occasion Ronald Aylmer Fisher (1890-1962) prend toujours une majuscule. AD]

lourrran · May 2020

Tu as 72 observations. Donc 70 variables, c'est énorme !

Si tu crées un tableau avec 72 lignes, et 70 colonnes, et avec des chiffres totalement aléatoires, tu trouveras forcément un R² très proche de 1. Avec N équations et N inconnues, il y a sauf exception une solution, il y a une combinaison de coefficients qui donne un résultat parfait.

Avec quasiment autant de variables que d'observations, on a forcément un R² très élevé.
Conserve uniquement 6 ou 7 variables.
Si tu ne sais pas quelles variables conserver, tu peux passer par une ACP. Ca va te construire 6 ou 7 variables combinées, orthogonales entre elles, et propices pour continuer tes traitements.

melscot · May 2020

Bonjour,

Effectivement, 70 variables c'est beaucoup. Normalement il faut regarder au R$^{2}$ ajusté plutôt qu'au R$^{2}$car le R$^{2}$ augmente avec le nombre de variables. Mais le mieux reste reste d'utiliser une méthode de sélection de variables, vu le nombre de variables j'utiliserais la forward stepwise selection.

jma · May 2020

Bonsoir,

Tu peux t'investir (ce ne sera pas facile) dans les problèmes de "haute dimension" où p>>N.

Bon courage.

Ajout : Renseignement pris, le jeu des données du package PPLS permet de s'exercer à appliquer la régression PLS qui est une réponse possible dans le cas de figure que tu as décrit.

R2 = 0.9 mais mauvaise régression

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 3