Chain rule emboîtée
Bonjour,
Supposons que je dispose d'une suite de fonctions $a^{<t>}$ qui dépendent d'une matrice de paramètre $W$ et qui vérifie une "sorte de relation de récurrence" $a^{<t>}=f^t(W,a^{<t-1>})$, comment obtenir $\dfrac{\partial a_m^{<t>}}{\partial W_{ij}}$ ?
Remarque: cette question vient de mon soucis à trouver: $\dfrac{\partial a_m^{<t>}}{\partial W_{ij}}$ avec
$a^{\langle t\rangle}=\tanh \left(W_{a x} x^{\langle t\rangle}+W_{a a} a^{\langle t-1\rangle}+b_{a}\right)$ où la notation $\tanh$ appliquée à un vecteur s'applique "terme à terme".
Supposons que je dispose d'une suite de fonctions $a^{<t>}$ qui dépendent d'une matrice de paramètre $W$ et qui vérifie une "sorte de relation de récurrence" $a^{<t>}=f^t(W,a^{<t-1>})$, comment obtenir $\dfrac{\partial a_m^{<t>}}{\partial W_{ij}}$ ?
Remarque: cette question vient de mon soucis à trouver: $\dfrac{\partial a_m^{<t>}}{\partial W_{ij}}$ avec
$a^{\langle t\rangle}=\tanh \left(W_{a x} x^{\langle t\rangle}+W_{a a} a^{\langle t-1\rangle}+b_{a}\right)$ où la notation $\tanh$ appliquée à un vecteur s'applique "terme à terme".
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Ne puis je pas écrire:
$\dfrac{\partial a_m^{<t>}}{\partial W_{ij}}=\dfrac{\partial f_m^t(W,a^{<t-1>})}{\partial W_{}} \dfrac{\partial W}{\partial W_{ij}}+\dfrac{\partial f_m^t(W,a^{<t-1>})}{\partial a^{<t-1>}}\dfrac{\partial a^{<t-1>}(W,a^{<t-2>})}{\partial W_{ij}}$ ce qui derait une récurrence qu'il faudrait continuer :
$\dfrac{\partial a_m^{<t>}}{\partial W_{ij}}=\dfrac{\partial f_m^t(W,a^{<t-1>})}{\partial W_{}} \dfrac{\partial W}{\partial W_{ij}}+\dfrac{\partial f_m^t(W,a^{<t-1>})}{\partial a^{<t-1>}}\dfrac{\partial a^{<t-1>}(W,a^{<t-2>})}{\partial W_{ij}}$ $=\dfrac{\partial f_m^t(W,a^{<t-1>})}{\partial W_{}} \dfrac{\partial W}{\partial W_{ij}}+\dfrac{\partial f_m^t(W,a^{<t-1>})}{\partial a^{<t-1>}}\left( \dfrac{\partial f^{t-1}(W,a^{<t-2>})}{\partial W} \dfrac{\partial W}{\partial W_{ij}}+\dfrac{\partial f^{t-1}(W,a^{<t-2>})}{\partial a^{<t-2>}}\dfrac{\partial a^{<t-2>}(W,a^{<t-3>})}{\partial W_{ij}} \right) = ...etc ...$
La preuve c'est $x(t) = x(t_0)+C(t-t_0)+o(t-t_0)$,
$y(t) = y(t_0)+D(t-t_0)+o(t-t_0)$,
$f(x,y) = f(x_0,y_0)+ A(x-x_0)+B(y-y_0)+o( x-x_0)+o(y-y_0)$
donc $h(t) = h(t_0)+ C A (t-t_0)+ D B (t-t_0)+ o(t-t_0)$.