Régression linéaire et modèle linéaire

Bonjour,

Dans son ouvrage Saporta fais la distinction entre :
- régression linéaire (d'un point de vue "empirique" il s'agit d'un problème d'optimisation qui consiste à minimiser la MSE et se ramène donc à chercher la projection orthogonale de$Y$ sur les colonnes de $X$, on peut ajouter un modèle probabiliste et dans ce cas on cherche l'espérance conditionnelle sous forme de combinaison linéaire des prédicteurs)
- modèle linéaire "général": pour moi l'approche est peu compréhensible... Est- ce que pour une même ligne de $X$ o réitère plusieurs fois l'expérience et on a donc différentes valeurs de sorties $\{y_1,...,y_k\}$ pour une même valeur d'entrée $x$ ?

J'avoue ne pas du tout saisir la distinction entre les deux, peut-être pourriez vous m'éclairer.

PS: Je vous joins le chapitre en question, il s'agit des 6 premières pages

Réponses

  • Bonjour,

    Au final c'est le même approche (ce qu'il dit page 411), mais l'étude des résultats n'est pas la même. On n'a pas les mêmes conclusions.

    Je vais expliquer autrement. Tu as deux bases des données:
    1) Une base des données avec une matrice de variace-covariance où chaque valeur $\sigma_{ij}$ est différente de $\sigma_{kl}$. La moyenne n'est pas la même pour tout l'échantillon (par exemple la moyenne change avec le temps). Les erreurs de l'estimation ne sont pas distribuées normalement etc. Bref, une base des données réelles, bien évidement non parfaite.
    2) Une base des données "idéale" où toutes les conditions sont réunies pour obtenir une régression où l'estimateur est sans biais, convergent, de variance minimale, les erreurs sont distribuées normalement, sont homoscédastiques et non corrélées (les variances sont les mêmes et covariance = 0) etc.

    Tu fais une estimation par MCO dans les deux cas. Quelles conclusions?
    1) Tu as une droite qui passe par le milieu du nuage des points. C'est tout. Ce qu'appelle Saporta "On cherche l'effet moyen des variables explicatives".
    2) On peut tirer plus de conclusion, on peut tester si les estimateurs des paramètres sont bon ou non, etc...

    Un exemple: prends les séries temporelles. Soit $Y$ est le PIB en valeur de l'Islande entre 1950 et 2017 et $X$ l'évolution du prix de chaussettes en Australie sur la même période. On estime la valeur du $Y$ en utilisant $X$.... et ... oups... on a une jolie relation quasi parfaite avec un $R^2 = 0.9999$. Est-ce que cela veut dire quelque-chose? Peut-on conclure que le prix des chaussettes australiens influence le PIB de l'Islande? Non. Certes, on a un jolie nuage des points avec une droite qui passe au milieu, mais pas plus. Parce que on a une base des données de type 1 qui ne vérifie pas les hypothèses du modèle linéaire général.

    Dans la vie réelle on a presque toujours des données type 1 => en réalité on utilise rarement les MCO. Il faut soit apporter la correction au modèle, soit corriger les données, soit prendre un autre modèle. Mais du point de vue pédagogique il faut mieux commencer avec le cas "idéal" et la méthode MCO.
  • $x_{ij} \not =x_{kl}$ ? C'est normal non ? Voulez-vous insister sur le fait qu'il n'y a pas a priori de répétition des données explicatives ?
    Saporta semble insister sur la notion de "répétition" mais je ne trouve pas cela très clair...
  • Oups. Comme j'ai dit la matrice de variance-covariance des erreurs d'estimation. Remplacer $x$ par $\sigma$. $\sigma_{ij}$ - la covariance, $\sigma_{ii}$ l'écart-type et donc $\sigma_{ii}^{2}$ - la variance des erreurs.
  • student2 a écrit:
    Saporta semble insister sur la notion de "répétition" mais je ne trouve pas celà très clair...
    Parce que l'échantillon $iid$ est une hypothèse des MCO (indépendamment et identiquement distribués). Vous avez la population avec $N$ sujets. Chacun a une caractéristique $X$. Vous tirez avec remise (donc répétition) $n$ individus - c'est votre échantillon. Il est $iid$ parce que tiré indépendamment avec remise et on suppose que tous $X_i$ suivent la même loi (avec les mêmes paramètres).

    Relisez la synthèse page 411.
  • Merci pour votre aide. Le paragraphe sur le modèle probabiliste est beaucoup plus claire que le résumé je trouve: si j'ai bien compris il s'agit juste d'une généralisation où cette fois ci le vecteur aléatoire est centré mais sa matrice de variance -covariance n'est plus $\sigma^2I_n$ mais une matrice SDP quelconque $\Sigma$.

    Et ce problème peut être résolu par ce qui est couremment appelé "moindre carré généralisé" (et non moindre carré ordinaire)

    Ai je mieux compris ?
  • Ah en fait la distinction ne vient que du tableau de donnée: dans le modèle linéaire: le tableau des données (empiriques) noté $X$ est donné (donc fixé) tandis que dans le modèle de regression le tableau des données est supposée issue d'une variable aléatoire; l'idée pour se débarasser de l'aléa est donc de conditionné par $X$. Je m'exprime sans doute très mal et des spécialistes pourront me corriger mais je crois que l'idée est là!

    Par contre il y a des choses fausses dans le livre: "matrice de variance est $\sigma^2I$ car l'hypothèse d'échantillonage suppose les observations indépendantes" Dans le cas d'un vecteur gaussien l'indépendance est synonyme de décorrélation donc c'est une hypothèse à préciser. De plus l'indépendance ne donne pas l'homoscedasticité (chaque erreur n'est à priori pas de même varince)
  • Je pense que Saporta n'est pas le manuel le plus pédagogique. Je vois que vous mélangez les notions:
    Ah en fait la distinction ne vient que du tableau de donnée: dans le modèle linéaire: le tableau des données (empiriques) noté X est donné (donc fixé) tandis que dans le modèle de regression le tableau des données est supposée issue d'une variable aléatoire
    Non. C'est très mal dit dans le livre. Dans le premier cas vous avez toutes les informations de la population (par exemple le fichier fiscal de tous les ménages français du quel vous pouvez extraire les revenus). Tout est connu, il n'y a rien d'aléatoire. Dans le deuxième cas vous avez un échantillon des personnes. Par exemple vous avez demandé à 1000 personnes quel est le revenu du ménage. Dans ce cas les réponses sont des variables aléatoires. Elles peuvent être indépendantes si l'échantillon a été bien construit.
    Par contre il y a des choses fausses dans le livre: "matrice de variance est car l'hypothèse d’échantillonnage suppose les observations indépendantes" Dans le cas d'un vecteur gaussien l'indépendance est synonyme de décorrélation donc c'est une hypothèse à préciser.
    La matrice variance-covariance $\sigma^2 I$ a le même $\sigma^2$ sur la diagonale pour tous les observations et 0, la covariance, en dehors. Donc elle est bien homoscedatique parce que pour n'importe quel $e_{ij}$ (erreur) la variance de l'erreur est $\sigma^2$. Et la covariance 0, donc ils ne sont pas autocorrelé.
Connectez-vous ou Inscrivez-vous pour répondre.