moindre carré

Bonjour,

Pourquoi utilise t-on le carré et non la valeur absolue dans la méthode des moindres carrés lorsque l'on effectue une régression linéaire ?

Merci

Réponses

  • Bonjour.

    Deux raisons :
    * Une historique : La méthode a été créée par des mécaniciens (mécanique rationnelle : Laplace, Gausss, etc.) qui utilisaient déjà ce type de calculs pour les centres d'inertie, axes principaux d'inertie, etc.
    * Une statistique : Celà revient à minimiser la variance, en partant du principe que le modèle est linéaire avec une erreur aléatoire e : y = ax + b + e. Et on impose que e ait une moyenne (estimée) nulle et une variance minimale. Ce sont des conditions raisonnables.

    Cordialement
  • et dans la variance pourquoi utilise t-on le carré et non la valeur asolue ? numériquement je ne vois pas l'apport
  • Un carré, c'est plus simple qu'une valeur absolue !
    (|x| est la racine carrée de x²)

    mais il existe aussi l'écart absolu moyen (moyenne des écarts en valeur absolue à la moyenne), dont je te laisse examiner les propriétés.

    Cordialement
  • Essaie de trouver la droite qui minimise la distance verticale (la valeur absolue), ou pire qui minimise la distance tout court, je te souhaite bien du plaisir.
    Algebraic symbols are used when you do not know what you are talking about.
            -- Schnoebelen, Philippe
  • L'avantage du passage au carré est qu'on obtient une fonction différentiable, ce qui est plus facile à minimiser.
  • C'est surtout que le problème sous-jacent est linéaire qui fait que c'est pratique.
  • Bonjour

    Pour faire du calcul formel (sur les réels) il semble que prendre le carré est plus facile que la valeur absolue (c'est dérivable en tout point, c'est toujours positif ...).
    Par contre quand on s'intéresse à un calcul numérique (par ordinateur), prendre le carré et la racine carré me semble plus "cher" que la valeur absolue. La remarque de Nicolas n'est pas à propos, car
    trouver la droite qui minimise la distance verticale (la valeur absolue), ou pire qui minimise la distance tout court

    se fait en général par procédé itératif, et il vaut mieux que l'itération soit la plus rapide (en nombre d'instructions exécutées) possible. Or élever au carré, c'est faire une multiplication qui coute beaucoup plus cher que prendre la valeur absolue qui consiste simplement à forcer le bit de signe.
    Si quelqu'un pouvait apporter des arguments dans un sens ou dans l'autre, je serais intéressé.

    Alain
  • OK, alors je répète que du point de vue numérique, ce que l'on résout dans les moindres carrés, c'est un système linéaire faisant intervenir le pseudo-inverse. On peut le résoudre de tas de façons avec des tas de raffinements, mais c'est ça qui fait que c'est pratique. Rien de tel avec la valeur absolue ou autres.
  • bonjour

    pour compléter la remarque historique de Gérard, la méthode des moindres carrés a été inventée par Legendre et Gauss qui l'utilisaient sur des travaux de mécanique céleste (trajectoire des astéroïdes)

    pourquoi le carré et non la valeur absolue des distances? pour pouvoir utiliser Pythagore et les relations trigonométriques plus commodément

    le calcul de la dispersion se fait de façon pratique par le carré des distances (variance) avant de passer à la racine carrée (écart-type)
    et comme on l'a expliqué plus haut les dérivées partielles des fonctions de a et b sont simples avec des fonctions carrées ce qui n'est pas le cas avec la fonction valeur absolue

    pourquoi les moindres carrés? c'est une question qui est posée (intelligemment) par les élèves lorsqu'on leur démontre les formules d'obtention des estimateurs a et b

    cordialement
  • Bonjour,

    Au lieu d'utiliser le carré, on pourrait utilier la valeur absolue, ou d'autres fonctions à condition qu'elles soient paires et égale à 0 pour le 0 de la variable.
    Comme il a été dit dans plusieurs réponses précédentes, choisir le carré est la solution de facilité pour les développements mathématiques qui s'en suivent.
    C'est une remarque qui a été faite par exemple dans l'article "Régression circulaire" parru dans le magazine QUADRATURE, n°63, pp.33-40 (remarque en p.34 et discutée au §.VIII dans le cas de la régression circulaire).
    En fait, ces différentes possibilités, ou choix de fonctions d'écart quadratique ou non, reviennenent à affecter aux points expérimentaux des fonctions de poids variables,
  • Ah non, je dois m'insurger (mollement) ! Ce n'est pas une "solution de facilité". C'est une question de pragmatisme et d'efficacité, au delà de raisons particulières à tel ou tel problème qui feraient qu'on a absolument besoin de la meilleure approximation au sens des moindres carrés. Maintenant, si pour une autre raison particulière, on a besoin d'une autre meilleure approximation en un autre sens, alors il va falloir en payer le prix numérique.
  • Pourquoi les carrés ? Parce que la nature aime le second degré et les identités remarquables classiques ...

    Plus précisémént, c'est parce que l'on dispose alors d'une structure hilbertienne (un produit scalaire ...) et donc du théorème de Pythagore, etc.
    Tout devient plus géométrique, ce que certains ont qualifié de << facile >>. En fait, le bon terme n'est pas << facile >>, mais plus riche !!!

    (NB : la structure hilbertienne dont il est question est l'ensemble des fonctions de carré intégrable pour une certaine mesure)

    En tout état de cause, il est clair que pour mesurer une << distance >> le plus << naturel >> aurait été de prendre les valeurs absolues. Mais on n'obtient pas de résultat concluant ou généralisable (peu de géométrie derrière ...). Une autre idée consiste à considérer tous les moments (moment d'ordre 1, carré, cube, etc. ), mais la théorie dit que cela ne caractérise pas les variables aléatoires ( seules les variables aléatoires exponentiellement intégrables si mes souvenirs sont exacts).

    En espérant vous avoir aider ...
  • Salut Alain.

    Tu as raison, en informatique de base, la valeur absolue est plus simple que le carré. mais les méthodes statistiques ont été inventées avant l'ordinateur, et continuent à se développer par du calcul théorique, pas du calcul effectif. la richesse de la notion de variance (plus fondamentale que celle d'écart-type) fait qu'on a obtenu de nombreux résultats utiles.
    pour la valeur absolue et l'écart absolu moyen, je ne connais qu'une application : montrer qu'il est minimisé par la médiane. J'ai bien peur que les calculs soient délicats en général. Or en maths, on ne fait pas ce qui est désiré, on fait .. ce qu'on sait faire.
    Existe-t-il avec les écarts absolus des équivalents de l'analyse de variance (variance globale = variance des moyennes + moyenne des variances en statistique; ANOVA en statistique inférentielle) ? je ne crois pas. Les écarts absolus moyens des lois simples (binomiale, par exemple) sont-ils faciles à calculer ?

    Voilà, ce ne sont pas de très bonnes raisons, mais ça explique beaucoup de choses.

    Cordialement
  • C'est marrant, j'ai l'impression de parler dans le vide en parlant du point de vue numérique (je ne parle pas de l'histoire de la chose, de son aspect agréablement hilbertien, ...). Pour minimiser une fonctionnelle, il ne suffit pas de calculer sa valeur en un point. Donc comparer le coût de calcul d'un carré et d'une valeur absolue est hors sujet (pardonnez cette véhémence, mais ça fait trois fois que je reviens là-dessus). Ce qui compte, c'est le coût total de l'algorithme utilisé. Dans le cas des moindres carrés, on peut faire ça de façon efficace, raisonnablement robuste, parce qu'en réalité il s'agit d'un système linéaire à résoudre. Minimiser toute autre mesure de l'écart à la moyenne va taper plus cher au porte-monnaie du temps calcul... Tout dépend de ce que l'on veut faire. S'il s'agit d'un petit nombre de données, pourquoi pas ? Si on doit traiter de grandes quantités de données de façon répétitive, c'est une autre histoire.
  • Bonjour,

    je voudrais faire de petites et très anodines remarques à remarque...
    D'une part, dans la grande majorité des cas que rencontre l'utilisateur lambda, les temps de calcul ou les "coûts total d'algorithmes" ne sont pas les critères essentiels : que son ordinateur travaille un peu plus ou un peu moins ne lui coûte ni plus ni moins et le plus souvent il ne voit pas la différence entre un logiciel et un autre qui utilisent dans leurs programmes de statistiques des procédures internes différentes et dont il n'a même pas connaissance.
    Donc, en pratique, ces considérations sont secondaires pour l'utilisateur ordinaire. Par contre, on comprend que, pour le professionnel ou le spécialiste, ce soit différent : cela peut aller jusqu'à se faire un point d'honneur à préférer un algorithme élégant et performant à un autre plus rustique et plus lourd, même si finalement ils donnent le même résultat, numériquement parlant.
    D'autre part, il ne faut pas croire que les moindres carrés soient, toujours et pour tous les problèmes, la façon la plus efficace et la plus robuste. Par exemple, dans le cas de la régression circulaire, la méthode basique des moindres carrés ne conduit pas à un système d'équations linéaires et demande des méthodes sophistiquées de résolution, donc un algorithme beaucoup plus compliqué. En choisissant de minimiser une fonction appropriée (qui en l'occurence est d'un ordre de puissance 4 au lieu de 2), on revient, dans ce cas là, aux avantages de simplicité mathématique du linéaire.
  • Bonjour JJ,

    Ce que tu dis sur l'utilisateur ordinaire n'est pas faux. Par ailleurs, je parlais évidemment de moindres carrés linéaires, dans la mesure où j'ai insisté, avec lourdeur je l'admets, sur le fait qu'il s'agit d'un système linéaire à résoudre... c'était me semble-t-il le contexte initial.
  • Bonjour à tous.

    Je m'aperçois que j'ai oublié une raison (souvent la première que l'on donne) qui a justifié cette démarche chez les concepteurs de la théorie des erreurs (Legendre, que j'avais oublié et Gauss) : Il est sain de ne pas considérer que les écarts ont tous la même importance, ce que fait l'écart absolu moyen. En prnant les carrés, on affecte les écarts absolus d'un coefficient égal à eux mêmes, ce qui rend les grandes erreurs beaucoup plus importantes que les petites. L'idée est la même pour la variance, et on la retrouve aussi (modifiée) dans le calcul du khi-deux.
    Cette démarche est très exactement la même que celle du calcul du moment d'inertie des mécaniciens, qui ont par contre une justification physique (énergie).

    Cordialement
  • merci pour tout ces explication mais je voudrais toute un cours complet sur cette methode. anssi des cours sur les methodes statistique ou bien des en statistique
  • Bonjour Zohier.

    Achète un bouquin de statistiques en fonction de ton niveau.
    Il existe aussi des documents récupérables sur Internet (sans garantie, on trouve aussi souvent des explications fausses).

    Cordialement
  • {\bf Petit résumé}

    {\bf Raisons pratiques} :
    $\bullet\ $ possibilité de dériver (Aleg)
    $\bullet\ $ utilisation du théorème de Pythagore et des relations trigonométriques (Jean Lismonde)
    $\bullet\ $ un simple système linéaire à résoudre (remarque) ({\it est-ce parce qu'il s'agit d'une projection ?})

    {\bf Raisons historiques} :
    $\bullet\ $ rapport à l'inertie (Gérard)
    $\bullet\ $ on savait qu'élever au carré était plus commode

    {\bf Raisons théoriques} :
    $\bullet\ $ prendre plus en considération les grands écarts (Gérard)
    $\bullet\ $ la structure hilbertienne géométrique plus riche (azertyuiop) induite en travaillant sur des fonctions élevées au carré. Ceci explique aussi en partie les facilités de calculs induites
Connectez-vous ou Inscrivez-vous pour répondre.