Qui connait bien la dérivation ?!
Je ne m'attends pas à beaucoup de retours car ces questions "pratiques/techniques" ont malheureusement généralement peu de succès sur le forum, mais je garde un petit peu espoir malgré tout ^^
Dans l'optique de programmer un réseau récurrent (Mooc de Andrew NG) et notemment la backpropagation j'aimerais comprendre comment sont obtenus ces dérivées partielles suivantes.
https://snag.gy/FRz2gL.jpg
En m'appliquant (ce que je vais faire) je pense que j'aurai 10 pages de calcul pour obtenir ces résultats, je m'y prends certainement mal... Quelqu'un aurait-il le courage de me montrer comment il procède ? (un scan de ses notes serait parfait).
PS: il est utile de bien noter les dimensions mis en jeu pour obtenir $a^{(t)}$
https://snag.gy/e51PAH.jpg
Les images sont tirés du cours suivant:
https://www.coursera.org/learn/nlp-sequence-models/notebook/X20PE/building-a-recurrent-neural-network-step-by-step
Dans l'optique de programmer un réseau récurrent (Mooc de Andrew NG) et notemment la backpropagation j'aimerais comprendre comment sont obtenus ces dérivées partielles suivantes.
https://snag.gy/FRz2gL.jpg
En m'appliquant (ce que je vais faire) je pense que j'aurai 10 pages de calcul pour obtenir ces résultats, je m'y prends certainement mal... Quelqu'un aurait-il le courage de me montrer comment il procède ? (un scan de ses notes serait parfait).
PS: il est utile de bien noter les dimensions mis en jeu pour obtenir $a^{(t)}$
https://snag.gy/e51PAH.jpg
Les images sont tirés du cours suivant:
https://www.coursera.org/learn/nlp-sequence-models/notebook/X20PE/building-a-recurrent-neural-network-step-by-step
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Il s’agit de dérivation partielle par rapport à une variable d’une fonction de plusieurs variables. Sans aucune difficulté.
Ou alors je n’ai pas compris ta question.
Quelle ligne ne sais-tu pas retrouver ?
(pour comprendre ce qu'il se passe, regarder le cas où $F(x,y)=a+bx+cy$ et $x(t) = e+dt$)
Par exemple que signifie $\frac{\partial a^{<t>}}{\partial W_{a x}}$ , avec $a^{<t>} \in R^{n_a}$ et $W_{a x} \in R^{n_a \times n_x}$, pour moi il s'agit d'un tenseur à 3 dimensions (on "dérive" un vecteur par rapport à une matrice).
Or l'extrait image affirme $\frac{\partial a^{<t>}}{\partial W_{a x}}=\left(1-\tanh \left(W_{a x} x^{(i)}+W_{a a} a^{<t-1>}+b\right)^{2}\right) x^{<t> T}$: le membre de gauche est bien une matrice ...
De mon côté en procédant de manière indicielle (c'est fastidieux, je suis sûr qu'il ya plus efficace) j'arrive à écrire quelque chose qui ressemble au membre de droite à condition de prendre pour définition $[\frac{\partial a^{<t>}}{\partial W_{a x}}]_{ij}=\frac{\partial a_i^{<t>}}{\partial W_{ij}^{a x}}$ (on notera que $i$ apparait à la fois au numérateur et dénominateur).
Alors ai je bien réussis à retomber sur mes pattes (et dans ce cas c'est très limite de proposer un résultat sans énoncer une définition aussi particulière que celle que je propose pour obtenir un résultat analogue), où ce n'est pas ça du tout et dans ce cas je serai curieux d'avoir votre avis ....
https://snag.gy/jYG7DT.jpg
De même:
https://snag.gy/ztDvXh.jpg
De
[ttps://snag.gy/3npbV2.jpg;ttps://snag.gy/1q4Bch.jpg]
Le mieux avec ces dérivations matricielles c’est d’avoir un formulaire. Les conventions varient d’un livre à l’autre (et en physiques d’un domaine à l’autre). Tu peux chercher sur Wikipedia ‘matrix calculus’ pour un tableau complet selon la convention choisie.