Quelques clarifications sur la dérivation
Bonjour
Voici un papier de Stanford que j'aimerais éclaircir.
http://cs231n.stanford.edu/vecDerivs.pdf
Si l'on pose $\vec{y}=W \vec{x}$, on montre facilement que $\frac{\partial \vec{y}_{i}}{\partial \vec{x}_{j}}=W_{i, j}$, que l'on résume par $\frac{d \vec{y}}{d \vec{x}}=W$ (où $\frac{d \vec{y}}{d \vec{x}}$ désigne ? la matrice jacobienne décrite dans le papier).
Je ne comprends pas bien la deuxième partie "Row vectors instead of column vectors", ils arrivent au même résultat
$\frac{d \vec{y}}{d \vec{x}}=W$. Mais dans ce cas que désigne $W$ et $\frac{d \vec{y}}{d \vec{x}}$ ?
Ce que je sais c'est que si $\vec{y}=W \vec{x}$ alors je peux le réécrire en $\vec{y}^T=\vec{x}^TW^T $. Visiblement dans le papier ils ne s'embarrassent pas des transposées pour les vecteurs, on pourrait donc réécrire la dernière égalité comme $\vec{y}=\vec{x}W^T $ en gardant en tête que l'on manipule des vecteurs lignes.
Du coup on a $\vec{y}=f(\vec{x})$ ($\vec{y}=\vec{x}W^T $), que vaut le jacobien de $f$ en $x$ ?
(Est-ce que dans ce dernier cas on a toujours cette définition $[J_xf(x)]_{ij}:=\partial f_i(x)/ \partial x_j$ ?)
En tout cas je peux écrire $y_j=\sum_i x_i [W^T]_{ij}=\sum_i W_{ji}x_i$, donc avec la définition suivante : $[J_xf(x)]_{ij}:=\partial f_i/ \partial x_j$, on retrouve bien (heureusement) la même jacobienne $[J_xf(x)]=W$, quoi qu'ait été le choix fait au départ (vecteur ligne/vecteur colonne)
Voici un papier de Stanford que j'aimerais éclaircir.
http://cs231n.stanford.edu/vecDerivs.pdf
Si l'on pose $\vec{y}=W \vec{x}$, on montre facilement que $\frac{\partial \vec{y}_{i}}{\partial \vec{x}_{j}}=W_{i, j}$, que l'on résume par $\frac{d \vec{y}}{d \vec{x}}=W$ (où $\frac{d \vec{y}}{d \vec{x}}$ désigne ? la matrice jacobienne décrite dans le papier).
Je ne comprends pas bien la deuxième partie "Row vectors instead of column vectors", ils arrivent au même résultat
$\frac{d \vec{y}}{d \vec{x}}=W$. Mais dans ce cas que désigne $W$ et $\frac{d \vec{y}}{d \vec{x}}$ ?
Ce que je sais c'est que si $\vec{y}=W \vec{x}$ alors je peux le réécrire en $\vec{y}^T=\vec{x}^TW^T $. Visiblement dans le papier ils ne s'embarrassent pas des transposées pour les vecteurs, on pourrait donc réécrire la dernière égalité comme $\vec{y}=\vec{x}W^T $ en gardant en tête que l'on manipule des vecteurs lignes.
Du coup on a $\vec{y}=f(\vec{x})$ ($\vec{y}=\vec{x}W^T $), que vaut le jacobien de $f$ en $x$ ?
(Est-ce que dans ce dernier cas on a toujours cette définition $[J_xf(x)]_{ij}:=\partial f_i(x)/ \partial x_j$ ?)
En tout cas je peux écrire $y_j=\sum_i x_i [W^T]_{ij}=\sum_i W_{ji}x_i$, donc avec la définition suivante : $[J_xf(x)]_{ij}:=\partial f_i/ \partial x_j$, on retrouve bien (heureusement) la même jacobienne $[J_xf(x)]=W$, quoi qu'ait été le choix fait au départ (vecteur ligne/vecteur colonne)
Connectez-vous ou Inscrivez-vous pour répondre.