Régression linéaire à deux variables

Bonjour,

J'ai une petite question sur la régression linéaire (moindre carré ordinaire). Mettons que j'ai une variable cible $y$ et deux variables explicatives $x_1$ et $x_2$. Je voudrais savoir s'il est possible à partir d'une régression linéaire simple sur chacune des variables individuellement, de construire la régression linéaire multiple.

On aurait donc : $y_{x_1} = a_{x_1} \times x_1 + b_{x_1}$ et $y_{x_2} = a_{x_2} \times x_2 + b_{x_2}$.

Connaissant les paramètres (estimés par la méthode des MCO) $a_{x_1}$, $b_{x_1}$, $a_{x_2}$ et $b_{x_2}$; est-il alors possible d'en déduire les paramètres (qui seraient estimés par la méthode des MCO) $a_1$, $a_2$ et $b$, via l'équation $y_{total} = a_1 \times x_1 + a_2 \times x_2 + b$. Je ne mets aucun terme d'interaction.

La réponse est peut-être simple, mais je n'ai rien trouvé sur le net pour l'instant.

Merci d'avance!

Réponses

  • Bonjour.

    La réponse est non. Les coefficients de la régression à deux variables ne sont pas directement liés à ceux des deux régressions simples. En fait, il s'agit de trois modèles différents.

    Cordialement
  • Merci de votre réponse.

    En effet sans restriction sur le "vraie modèle de génération", cela semble compliqué d'avoir une relation entre les trois modèles.

    Par contre qu'en est-il si le vraie modèle est généré par une équation du type $y^{vrai} = a_1^{vrai} \times x_1 + a_2^{vrai} \times x_2 + b^{vrai}$ ? Je reconnais que je suis un peu rouillé en maths, donc j'ai fait une petite simulation numérique, et retrouve que les coefficients des modèles individuels sont les mêmes (à un epsilon près) que leurs "équivalents" du modèle complets. Par exemple $a_{x_1}$ et $a_1$ sont similaires.
    Ce sont les $b$ qui varient. Mais là encore, il semble y avoir une relation, en faisant un graphe, je retrouve une espèce de parallélogramme si je plote $b_{x_1}$ contre $b$ par exemple.

    De plus, même en ajoutant un terme d'interaction au vrai modèle de génération (donc $y^{vrai} = a_1^{vrai} \times x_1 + a_2^{vrai} \times x_2 +
    a_1a_2^{vrai} \times x_1x_2 + b^{vrai}$), il semble y avoir de nettes relations entre les différents paramètres, ce alors même que j'estime sans terme d'interaction (exactement comme avant).
    Par exemple, les paramètres individuels et complets sont similaires ($a_{x_1}$ et $a_1$). Mais ils ne sont jamais similaires au vrai paramètre (donc différents de $a_1^{vrai}$). La relation semble être un parallélogramme, quand je plote $a_1^{vrai}$ contre $a_{x_1}$ par exemple.
    De même, il semble y avoir une relation linéaire entre le paramètre d'interaction et les paramètres individuels/complets (donc entre $a_1a_2^{vrai}$ et $a_{x_1}$ ou $a_1$ par exemple).

    J'essaye en fait de savoir si, dans certains cas tout du moins, une régression linéaire (ici avec deux variables) peut en quelques sortes, prendre en compte une certaine non-linéarité (représentée ici par le terme d'interaction, je n'ai pas encore essayé en appliquant une fonction $f$ sur l'une des deux variables par exemple). Le modèle estimé serait lui bien linéaire, mais prendrait en compte des effets non-linéaires.

    Pour contextualiser ma problématique, c'est à relier au domaine de l'explicabilité en apprentissage automatique. On essaye d'estimer l'influence de chaque variable sur la sortie d'une modèle, pour une observation donnée. C'est à relier au domaine de l'analyse de sensibilité. On utilise des méthodes comme LIME et surtout SHAP, qui est basée sur la pondération de Shapley (issue de la théorie des jeux, qui regarde l'influence d'un joueur (une variable explicative) sur le résultat (la prédiction) d'un jeu (le modèle)).

    Imaginons que les vraies données (avec deux variables explicatives) soient générées par un modèle linéaire avec un terme d'interaction.
    Pour la prédiction, l'on utilise un modèle linéaire SANS terme d'interaction.

    Et là il y a deux façons de voir les choses.

    1. Soit on regarde un modèle appris "final", et typiquement les influences pour chaque variables seront linéaires, le modèle étant linéaire. De plus, il n'y aura aucune influence sur l'interaction entre les deux variables (la pondération de Shapley permet de quantifier aussi cette interaction).

    2. Soit on regarde plutôt la "modélisation" dans son ensemble. Dans ce cas là, on va estimer ("apprendre" pour reprendre un terme plus "machine learning") trois modèles (un sur toutes les coalitions de variables). Un avec les deux variables, puis un sur $x_1$ seulement, puis un autre sur $x_2$ seulement). On va ensuite les comparer pour calculer les influences de chaque variable, et l'influence de leur interaction.
    Dans ce cas là, je me demande si l'influence de l'interaction sera nulle, puisqu'il semble que même un modèle linéaire sans terme d'interaction "ajuste", "compense" cette information (qu'il ne peut pas exactement reproduire) dans les paramètres de chaque variable et dans le $b$.
    Ainsi, avec la méthode 2, on pourrait capter une interaction, sans pour autant utiliser un modèle contenant des interactions.

    C'était un petit pavé, mais je peux donner plus de détails sur les méthodes, et la "double" façon de calculer les influences. La 1. est plus "modèle appris" centrée, alors que la 2. est plus "données/modélisation" centrée.
    Je peux aussi vous indiquer quelques articles de blogs et des papiers si besoin.
    Merci encore d'avance !

    [En admettant que "ploter" est un verbe, il se conjugue "je plo[b]te[/b]". Toutefois, lui préférer le verbe "tracer". ;-) AD]
  • Manifestement tu as utilisé des variables indépendantes. Dans ce cas, je te laisse prouver ce que tu as vu. Mais on fait rarement de la régression avec des variables statistiquement indépendantes.

    Cordialement.
  • Que veulent dire les notations avec 'vrai' en exposant ?
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Les notations avec vrai indiquent juste le modèle de génération des données.
Connectez-vous ou Inscrivez-vous pour répondre.