Régression logistique

Bonjour
Je n'arrive pas à comprendre/
1) Pourquoi les coefficients de la régression logistique peuvent prendre des valeurs infinies quand les classes sont séparables ?
2) Comment détecter de la colinéarité dans les variables explicatives aux seules vues des sorties d'un logiciel comme R.

[Ne stresse pas, respire un bon coup et relis ton message avant d'envoyer ! ;-) AD]

Réponses

  • Bonjour
    Pour répondre à la première question.

    Lorsque les classes sont linéairement séparables, l'algo de fitting va pousser les coefficients vers la situation où les classes sont parfaitement séparées... justement parce qu'elles peuvent l'être.

    Pour donner une idée de la situation dans un cas simple, si l'on régresse une variable binaire $y$ sur une unique variable catégorielle $x$ prenant comme valeurs $x_0$ et $x_1$, avec $P(y=0 \mid x = x_0 ) = P(y=1 \mid x = x_1) = 1$ (car données séparables) on voit qu'un prédicteur linéaire valant $-\infty$ et $+\infty$ permet de trouver des $\hat{y}$ valant précisément 1 et 0, car en regardant la logit: $$ \frac {1} {1 + \exp(-\infty)} = 1 \quad\text{et}\quad \frac {1} {1 + \exp(+\infty)} = 0
    $$ Pour la deuxième question, il y a plusieurs types de matrices de corrélations que tu peux regarder en amont de ta régression (selon que tes variables soient catégorielles et/ou numériques, du genre V de Cramer etc.) qui devraient te donner une idée des corrélations de tes données.

    Qui plus est, avoir des coefficients "énormes" ou des échecs de convergence signale généralement des colinéarités.

    En pratique, si tu as tout plein de variables le plus simple reste généralement de régulariser ta régression.
  • Merci hapax, pour 1) cela ne vient il pas de la maximisation de la log vraissemblance?
Connectez-vous ou Inscrivez-vous pour répondre.