Mean Square Error : Décomposition Biais, var

Bonjour,
Je suis actuellement un cours où j'étudie les bases statistiques derrière le machine learning, j'ai du coup quelques notions fondamentales à revoir.

Ici ce qui m'intéresse, c'est la démonstration de la décomposition de la MSE (mean square error) en Biais + Variance.

Concernant la première démonstration pour le cas "simple", j'ai tout compris. Aucun problème à signaler.
1566436544-bia1.png

Je donne quand même les notations, au cas où.(Il se peut que les termes ne soient pas tout à fait bons, estimation, estimateur, etc. Si c'est le cas n'hésitez pas à me le faire savoir)
Theta : Le paramètre.
Theta chapeau : L'estimation que l'on fait de notre paramètre theta.
EDn : Le Dn signifie que l'on a plusieurs data sets provenant de la même distribution statistiques.

Ensuite ça se complique un petit peu.
Je suis ici dans le chapitre "regression non-linéaire".

1566436542-bias2.png

Déjà au niveau des termes, c'est plus compliqué. Je vais donner les essentiels (Je ne pense pas me tromper, mais c'est possible).
h(x,aN) c'est une fonction hypothétique qui est sensée se rapprocher de f(x), MSE est justement un calcul de l'erreur de h(x,aN). aN est l'ensemble des paramètres pris en compte dans h.
w est le bruit.

Du coup globalement, les premières étapes sont les mêmes.
ligne 1 : On écrit la formule.
ligne 2 : On rajoute les termes - Ey[Y|X] + Ey[Y|X] qui s'annulent.
ligne 3 & 4 : Ici j'imagine qu'on fait la même chose que dans la première démonstration.
a = (y - Ey[Y|X])
b = (Ey[Y|X]-h(x,aN))
et qu'on fait le produit remarquable (a+b)² = a + 2ab + b
Du coup 2 ab = 2 (y - Ey[Y|X])*Ey[Y|X]-h(x,aN))
sauf que (y - Ey[Y|X]) = le bruit. et du coup on a
2w Ey[Y|X]-h(x,aN))

Cependant, pour passer à la ligne 5, je ne comprends plus les transformations, le premier terme reste inchangé, mais le deuxième ?

Merci pour votre aide. :)

Réponses

  • Bonjour,
    Je vous mets sur la piste : la première slide, nous avons MSE et, dans la seconde MSE(x) (i.e. il s'agit de l'erreur théorique en un point x).
    A bientôt.
    Cordialement.
  • Bonjour,
    Wesh rak ? Pour les notations et les notions, je te laisse les définir mieux pour avoir une réponse précise. Pour la troisième équation de MSE(x), le terme ayant pour coefficient 2w est nul car E(w)=0. Dans l'avant-dernière équation de MSE(x), il faut utiliser le décentrage de la variance. Si Z est une variable aléatoire alors Var(Z)=E(Z2)-(E(Z))2 ou bien E(Z2)=Var(Z)+(E(Z))2.
    Cordialement.
  • Bonjour jma,
    Merci pour ta réponse,et désolé pour ma réponse tardive, je suis occupé sur plusieurs cours en même temps.

    Tu m'as donné quelques pistes , je vais me pencher dessus, je reviens vers toi !

    Bien à toi,

    WLM
  • Bonsoir,
    En fait, je trouve les slides mal faites tant pour les notations que pour le calcul. Si, cela ne t'est pas imposé alors je te conseille de changer de support..Si, tu as des questions...
    Cordialement.
  • Pour résoudre cette équation un peu importante (dilemme biais-variance) :
    Si $ Z $ est une variable aléatoire alors : $ \mathbb{\mathscr{\mathrm{E(Z^{2})=Var(Z)+}}\left[\mathrm{E(Z)}\right]^{\text{2}}}$
    Il faut bien comprendre que $h(\mathbf{x,\alpha_{N})}$ est une variable aléatoire dont les réalisations sont celles du modèle.
    Pour plus de simplicité de calcul, on prend la notation $f(x)$ au lieu de $E_{Y}[\mathbf{Y|\mathrm{x]}}$.

    $MSE(x)=E_{\mathbf{D_{N},y}}\left[\left[y-h(x,\alpha_{N})\right]^{2}\right]$

    $MSE(x)=Var\left[y-h(x,\alpha_{N})\right]+\left[E_{\mathbf{D_{N},y}}\left[y-h(x,\alpha_{N})\right]\right]^{2}$

    $MSE(x)=Var\left[y-f(x)+f(x)-h(x,\alpha_{N})\right]\text{+}\left[E_{\mathbf{D_{N},y}}\left[y-f(x)+f(x)-h(x,\alpha_{N})\right]\right]^{2}$

    Comme, on a : $ y-f(x)=\varepsilon$, $E_{\mathbf{D_{N},y}}\left(\epsilon\right)=0$, $ Var\left(\varepsilon\right)=\sigma_{\mathbf{W}}^{2}$ (et même $Var\left(f\left(x\right)\right)=0$ car $ f\left(x\right)$ est déterministe).

    $MSE(x)=Var\left[\varepsilon+f(x)-h(x,\alpha_{N})\right]\text{+}\left[E_{\mathbf{D_{N},y}}\left[\varepsilon+f(x)-h(x,\alpha_{N})\right]\right]^{2}$

    devient

    $MSE(x)=\sigma_{\mathbf{W}}^{2}+Var\left[f(x)-h(x,\alpha_{N})\right]+\left[E_{\mathbf{D_{N},y}}\left[f(x)-h(x,\alpha_{N})\right]\right]^{2}$

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.