Régression Linéaire
Bonjour,
je suis à la recherche d'une formule.
Je vais essayer d'expliquer clairement le problème.
Je possède des points expérimentaux, sur ces points je fais une regréssion linéaire classique. J'obtiens un droite d'équation y=ax+b
Je cherche une formule me permettant de recalculer l'equation de ma droite et le coefficiant de corrélation en forçant la droite à passer par le point (0,0) (ordonnée à l'origine nulle)
Je vous remercie d'avance de votre aide
je suis à la recherche d'une formule.
Je vais essayer d'expliquer clairement le problème.
Je possède des points expérimentaux, sur ces points je fais une regréssion linéaire classique. J'obtiens un droite d'équation y=ax+b
Je cherche une formule me permettant de recalculer l'equation de ma droite et le coefficiant de corrélation en forçant la droite à passer par le point (0,0) (ordonnée à l'origine nulle)
Je vous remercie d'avance de votre aide
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Vous voulez approcher un ensemble de points par une droite, mais en forçant cette droite de régression à passer par l'origine ?
Merci encore
Dans votre question, vous avez omis de préciser de quelle type de régression linéaire il s'agissait.
Par la méthode des moindres carrés, normalement, on minimise la somme des carrés des distances des points à la droite. Mais il existe des formes simplifiées de régressions linéaires (en particulier pour l'enseignement) où ce ne sont pas les carrés des distances (d) des points à la droite qui sont considérées, mais, par exemple les carrés des écarts (h) des ordonnées (voir figure jointe), ce qui n'est pas la même chose.
La formule donnant la pente de la droite est établie dans le document joint.
( A vérifier, car n'ayant pas l'original sous la main, j'ai du refaire tous les calculs, d'où risque d'erreur)
Si les points ne sont pas très dispersés, les résultats donnés par les formules simplifiées sont proches de ceux donnés par la formule complète. Toutefois, les résultats peuvent devenir plus éloignés les uns des autres lorsque la droite a une faible ou une forte pente.
y=ax+b + résidu (le résidu peut venir d'erreurs de mesure, ou de phénomènes imprévisibles). Les h(k) représentent les résidus.
En effet, lorsqu'il s'agit de mesures incertaines sur les Yk alors que les valeurs des Xk sont parfaitement connues (par exemple lorsque les Xk sont des entiers), le domaine d'incertitude de mesure est un petit segment vertical autour de l'ordonnée Yk et il est légitime d'utiliser la formule simple correspondante.
Par contre, lorsque les Xk sont succeptibles d'erreurs de mesures au même titre que les Yk, le domaine d'incertiture est un petit rectangle autour du point (Xk,Yk). Dans ce cas, l'utilisation de la régression orthogonale est légitime.
Mais je vous accorde que cette discussion est un peu oiseuse, les résultats étant en général voisins, sauf dans des cas spéciaux.
Vous avez donné le calcul de d(k) dans le cas particulier d'une droite y=ax. Dans le cas général, je crois que c'est beaucoup plus compliqué (j'ai retrouvé un bouquin de stat avec une preuve qui prend 5 ou 6 pages et le résultat final fait appel à un calcul de valeurs propres.
http://mathworld.wolfram.com/LeastSquaresFittingPerpendicularOffsets.html
On est bien d'accord, qu'en pratique, cela vaut pour la régression linéaire, mais certainement pas pour les regressions non linéaires, en raison de la complexité du calcul des écarts quadratiques orthogonaux.
d'une part je vous precise que je souhaitais utiliser la methode des moindres carré.
D'autre part, en ce qui concerne le calcul du coefficiant de corrélation, garde t- il un sens dans ce cas et se calcul t-il de la meme façon que pour une droite ne passant pas par l'origine?
Merci d'avance
Cov(x,y)=Cov(x,ax+b)=Cov(x,ax)+Cov(x,b) et ce dernier terme est toujours nul, quel que soit b.
La droite de régression donnera évidemment un meilleur résultat que si la droite est prise au hasard !
De plus, si vous faite une régression avec deux paramètres ajustables (cas général de la regression linéaire), le résultat sera meilleur qu'en faisant une régression avec un seul paramètre ajustable (cas de la regression linéaire avec passage par un point imposé).
Néanmoins la différence entre les deux peut être faible dans le cas où la droite de régression à deux paramètres avait déjà tendance à passer près du point imposé.
Comment tient on compte du point impose dans ce calcul?
Je suis tout à fait d'accord sur le principe de votre remarque concernant le paramètre b et le coefficient de corrélation.
Néanmoins, il faut remarquer que si on effectue la régression sur le seul paramètre (a), on ne trouvera pas rigoureusement la même valeur pour (a) que si on avait fait la régression avec a et b. Le coefficient de corrélation en sera (indirectement) affecté.
Procedez de la même façon, mais avec b=0 dans votre calcul : c'est bien ce que vous imposez en faisant passer la droite par l'origine.
J'ai cependant un peu de mal à comprendre, pour calculer r j'utilise la formule suivante
r = a*(ecType(x)/ecType(y))
Or si j'utilise ce calcul pour une droite passant par le point(0,0) j'obtient un coefficient r totalement incohérant tres différents de celui obtenu avec la droite ne passant pas par (0,0) alors que la droite est tres peu différente (b tres proche de 0)
ai je la bonne formule?
a=Cov(x,y)/V(x)=r*sigma(y)/sigma(x). Mais cette formule n'est plus vraie si b prend à priori la valeur 0 (voir la formule de a donnée par JJ).
S'il n'y a pas d'erreur, vous devez vérifier que les pentes (coefficients directeurs) des droites sont effectivement très voisins pours les deux méthodes.
Il doit en résulter des coefficients de corélations identiques ou très voisins (aux arrondis près des calculs numériques). Si non, il y a une erreur quelque part.
Vérifiez s'il n'y a pas une confusion entre a et b : Certains utilisent la notation y=ax+b, d'autres y=a-bx.
Comparez avec la formule complètement explicitée suivante :
vous avez totalement raison. Même la petite réserve que je faisais ne tient pas en théorie : la différence ne peut être que du second ordre et uniquement causée par des appoximations numériques.
Donc, si Valérie trouve de grandes différences, c'est qu'il y a un big bug dans ses formules ou dans son canevas de calcul.
Encore merci
Je reprend le sujet car ma question est proche de celle de Valérie.
Comment puis-je calculer un coefficient de corrélation d'une regression linéaire passant par 0 ?
En effet sous Excel, lorsque l'on affiche le R² sur le graphe d'une régression linéaire, cette valeur diffère si la régression passe par 0 ou non. J'aimerais savoir pourquoi.
Merci d'avance pour votre aide.