Résidus et chi2
dans Statistiques
Bonjour, je résume ci-dessous mon problème en espérant ne pas m'être mélangé les pinceaux dans les notations:
Considérons le modèle de régression linéaire simple $y_i=ax_i+b + \varepsilon_i, 1\leq i\leq n$, dans lequel les erreurs $\varepsilon_i$ suivent une loi normale $\mathcal{N}(0,\sigma^2)$, $\hat{a}$ et $\hat{b}$ sont les estimateurs des paramètres inconnus $a$ et $b$, $\hat{y}_i=\hat{a} x_i +\hat{b}$ est la valeur prédite (au point $x_i$) et $\hat{\varepsilon}_i=y_i-\hat{y}_i$ est le résidu.
Le décor étant planté, dans tout document sur la régression qui se respecte (le document...), on apprend que $\dfrac{ \sum{{\hat{\varepsilon}_i}^2}}{\sigma^2}$ suit une loi du $\chi^2$ à $n-2$ ddl (ce qui permet par exemple de calculer un intervalle de confiance pour la variance $\sigma^2$).
Bon, ça n'est pas tout à fait présenté comme ça ; on commence par définir un estimateur de $\sigma^2$ en prenant $\hat{\sigma^2}=\dfrac{ \sum{{\hat{\varepsilon}_i}^2}}{n-2}$, puis on dit que $\dfrac{(n-2) \hat{\sigma^2}}{\sigma^2}$ suit la fameuse loi du $\chi^2$...
Bref, je cherche une démonstration mathématique de ce fait... et je n'en trouve pas. Bien sûr, il y a partout cet argument bien connu, comme quoi on a estimé $2$ paramètres, ce qui réduit le nombre de ddl à $n-2$, etc. Mais ce n'est pas une démonstration.
Ce que je connais de la loi du $\chi^2$ ne m'aide pas ; un $\chi^2$ à $n-2$ ddl est basiquement la somme des carrés de $n-2$ loi normales $\mathcal{N}(0,1)$, indépendantes.
Mais les $\hat{\varepsilon}_i$ suivent des lois $\mathcal{N}(0,\sigma^2 \left( 1-\frac{1}{n} - \frac{(x_i-\bar{x})^2}{\sum{(x_k-\bar{x})^2}} \right)$ et $Cov(\hat{\varepsilon}_i, \hat{\varepsilon}_j)=- \sigma^2 \left( \frac{1}{n} + \frac{(x_i-\bar{x})(x_j-\bar{x})}{\sum{(x_k-\bar{x})^2}} \right) \neq 0$.
Quelqu'un, un jour, dans un bouquin de stats, a bien dû procéder à une démonstration explicite aboutissant à un ${\chi^2}_{n-2}$. J'ai essayé, j'ai cherché, mais je ne sais pas ce qu'il faut faire ; pourriez-vous m'orienter SVP ?
Considérons le modèle de régression linéaire simple $y_i=ax_i+b + \varepsilon_i, 1\leq i\leq n$, dans lequel les erreurs $\varepsilon_i$ suivent une loi normale $\mathcal{N}(0,\sigma^2)$, $\hat{a}$ et $\hat{b}$ sont les estimateurs des paramètres inconnus $a$ et $b$, $\hat{y}_i=\hat{a} x_i +\hat{b}$ est la valeur prédite (au point $x_i$) et $\hat{\varepsilon}_i=y_i-\hat{y}_i$ est le résidu.
Le décor étant planté, dans tout document sur la régression qui se respecte (le document...), on apprend que $\dfrac{ \sum{{\hat{\varepsilon}_i}^2}}{\sigma^2}$ suit une loi du $\chi^2$ à $n-2$ ddl (ce qui permet par exemple de calculer un intervalle de confiance pour la variance $\sigma^2$).
Bon, ça n'est pas tout à fait présenté comme ça ; on commence par définir un estimateur de $\sigma^2$ en prenant $\hat{\sigma^2}=\dfrac{ \sum{{\hat{\varepsilon}_i}^2}}{n-2}$, puis on dit que $\dfrac{(n-2) \hat{\sigma^2}}{\sigma^2}$ suit la fameuse loi du $\chi^2$...
Bref, je cherche une démonstration mathématique de ce fait... et je n'en trouve pas. Bien sûr, il y a partout cet argument bien connu, comme quoi on a estimé $2$ paramètres, ce qui réduit le nombre de ddl à $n-2$, etc. Mais ce n'est pas une démonstration.
Ce que je connais de la loi du $\chi^2$ ne m'aide pas ; un $\chi^2$ à $n-2$ ddl est basiquement la somme des carrés de $n-2$ loi normales $\mathcal{N}(0,1)$, indépendantes.
Mais les $\hat{\varepsilon}_i$ suivent des lois $\mathcal{N}(0,\sigma^2 \left( 1-\frac{1}{n} - \frac{(x_i-\bar{x})^2}{\sum{(x_k-\bar{x})^2}} \right)$ et $Cov(\hat{\varepsilon}_i, \hat{\varepsilon}_j)=- \sigma^2 \left( \frac{1}{n} + \frac{(x_i-\bar{x})(x_j-\bar{x})}{\sum{(x_k-\bar{x})^2}} \right) \neq 0$.
Quelqu'un, un jour, dans un bouquin de stats, a bien dû procéder à une démonstration explicite aboutissant à un ${\chi^2}_{n-2}$. J'ai essayé, j'ai cherché, mais je ne sais pas ce qu'il faut faire ; pourriez-vous m'orienter SVP ?
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Il s'agit d'une application du théorème de Cochran.
Je n'ai plus qu'à bosser ça...
Merci.
Cordialement.
Les polycopiés sur internet poussent comme des champignons : j'ai des doutes. Chacun y va de son polycopié ou livre (je ne sais plus) à lui qui l'a écrit tout seul. Il faudra bien un jour voir la qualité globale (Wikipédia se fait toujours mettre une taule par les encyclopédies).
Bonne soirée.
Concernant les prix rédhibitoires, j'ai eu le même souci avec les ouvrages d'Eric Sorosina ("Système D" : "Algèbre et Géométrie" et "Analyse") ; ces arnaqueurs ne veulent rien lâcher... ; je ne comprends pas qu'il n'y ait pas de rééditions ?
Le cas de la régression simple m'a l'air chaud sans la théorie générale.
Je te conseillerais :
- Régression, théorie et applications, de Cornillon et Matzner-Lober. Tiens je l'ai trouvé en pdf.
- Si tu veux une approche des modèles linéaires plus géométrique, Weighing the Odds de Williams.
...... Tiens je viens de feuilleter le Cornillon-ML et il y a un chapitre dédié à la régression simple. Il y a peut-être ce que tu y cherches, sans passer par la théorie générale du modèle linéaire gaussien.
Cordialement.
Ajout : cela ne serait pas un téléchargement illégal ? Cela ne m'arrive jamais. D'ailleurs Hadopi devrait aussi envoyer des lettres aux bons élèves