Encore du calcul différentiel

Voici http://cedric.cnam.fr/vertigo/Cours/ml2/tpDeepLearning1.html l'exercice :
Montrer que $\displaystyle \frac{\partial \mathcal{L}}{\partial \mathbf{s_i}} = \mathbf{\delta^y_i} =\frac{\partial \mathcal{L}}{\partial \mathbf{\hat{y_i}}} \frac{\partial \mathbf{\hat{y_i}}}{\partial \mathbf{s_i}} = \mathbf{\hat{y_i}} - \mathbf{y_i^*}$

En fait en une dimension ce n'est pas très compliqué.
https://stats.stackexchange.com/questions/278771/how-is-the-cost-function-from-logistic-regression-derivated
En revanche dans le cadre posé ici c'est assez complexe et je n'ai rien trouvé sur stackexchange !

Réponses

  • On note :
    $\mathcal{L}(\hat{y}=-log(\hat{y}$
    et
    $\hat{y}(s)=softmax(s)$

    Voir le lien du cnam pour voir ce qu'est cette fonction softmax très utilisée en ML.
  • Bon j'ai clarifié les choses en espéant bénéficier d'un peu d'aide. N'étant pas expert de la "chain rule" et mettant 40 minutes à faire ce calcul je désirerai voir comment vous vous y prenez pour résoudre ce problème
    https://snag.gy/QdDc56.jpg

    La réponse est sur le lien du CNAM (c'est du niveau M1 mais souvent adressé en cours du soir à des personnes n'étant plus allé en cours depuis longtemps. Je trouve l'exercice plus difficile qu'il n'y paraît et serait curieux de savoir le temps que vous mettez pour résoudre ce problème (sachant que j'ai déjà un peu clarifié les choses par rapport au lien du CNAM).
Connectez-vous ou Inscrivez-vous pour répondre.