Convexité
Bonjour
Un peu d'apprentissage.
Cadre: la régression logistique et le réseau de neurones à une couche.
Exercice 1: http://cedric.cnam.fr/vertigo/Cours/ml2/tpDeepLearning1.html
La fonction de coût utilisée pour comparer une distribution supervisée discrète $\hat{y_i}$ et la véritable distribution (1 sur la composante qui est la bonne catégorie) $y_i^*$ est donnée par l'entropie croisée : $\mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathbf{\hat{y_i}}, \mathbf{y_i^*}) = -\sum\limits_{c=1}^{10} y_{c,i}^* \log(\hat{y}_{c,i}) = - \log(\hat{y}_{c^*,i})$.
Le résultat final du coût est donné par : $\ \mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathcal{D}) = - \frac{1}{N}\sum\limits_{i=1}^{N} \log(\hat{y}_{c^*,i}),$
où l'on rappelle que : $ \widehat{y_{c,i}}=\big(:= p(\widehat{y_{c,i}} \mid \mathbf{x_i}) \big) \dfrac{e^{\langle \mathbf{x_i} ; \mathbf{w_{c}}\rangle + b_{c}}}{\sum\limits_{c'=1}^{10} e^{\langle \mathbf{x_i} ; \mathbf{w_{c'}}\rangle + b_{c'}}} $
Peut-on dire que $\mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathcal{D}) $ est convexe en $W,b$ ? J'ai envie de dire non mais bizarrement en le traçant sous géogebra dans un cas simple : une dimension on voit une fonction qui est bien convexe dans le cas d'un unique exemple. Alors je me dis que mon intuition est peut être fausse..
Un peu d'apprentissage.
Cadre: la régression logistique et le réseau de neurones à une couche.
Exercice 1: http://cedric.cnam.fr/vertigo/Cours/ml2/tpDeepLearning1.html
La fonction de coût utilisée pour comparer une distribution supervisée discrète $\hat{y_i}$ et la véritable distribution (1 sur la composante qui est la bonne catégorie) $y_i^*$ est donnée par l'entropie croisée : $\mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathbf{\hat{y_i}}, \mathbf{y_i^*}) = -\sum\limits_{c=1}^{10} y_{c,i}^* \log(\hat{y}_{c,i}) = - \log(\hat{y}_{c^*,i})$.
Le résultat final du coût est donné par : $\ \mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathcal{D}) = - \frac{1}{N}\sum\limits_{i=1}^{N} \log(\hat{y}_{c^*,i}),$
où l'on rappelle que : $ \widehat{y_{c,i}}=\big(:= p(\widehat{y_{c,i}} \mid \mathbf{x_i}) \big) \dfrac{e^{\langle \mathbf{x_i} ; \mathbf{w_{c}}\rangle + b_{c}}}{\sum\limits_{c'=1}^{10} e^{\langle \mathbf{x_i} ; \mathbf{w_{c'}}\rangle + b_{c'}}} $
Peut-on dire que $\mathcal{L}_{\mathbf{W},\mathbf{b}}(\mathcal{D}) $ est convexe en $W,b$ ? J'ai envie de dire non mais bizarrement en le traçant sous géogebra dans un cas simple : une dimension on voit une fonction qui est bien convexe dans le cas d'un unique exemple. Alors je me dis que mon intuition est peut être fausse..
Réponses
-
En tout cas la fonction $-\log$ est bien convexe, je dois donc vérifier que la fonction softmax est bien convexe [Faux] (la convexité est, il me semble, stable par composition).
Je vais devoir procéder autrement -
Pour préciser la question: montrer que J :
http://ufldl.stanford.edu/wiki/images/math/7/6/3/7634eb3b08dc003aa4591a95824d4fbd.png
est convexe en $\theta$ (on notera que le biais à disparu car il est désormais inclus dans $\theta$ ) -
Une fonction de plusieurs variables est strictement convexe si sa hessienne est définie positive. Peut être qu'en explicitant le déterminant de la hessienne... pas évident!
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 163.1K Toutes les catégories
- 7 Collège/Lycée
- 21.9K Algèbre
- 37.1K Analyse
- 6.2K Arithmétique
- 53 Catégories et structures
- 1K Combinatoire et Graphes
- 11 Sciences des données
- 5K Concours et Examens
- 11 CultureMath
- 47 Enseignement à distance
- 2.9K Fondements et Logique
- 10.3K Géométrie
- 62 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 68 Informatique théorique
- 3.8K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 312 Mathématiques et Physique
- 4.9K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10K Probabilités, théorie de la mesure
- 772 Shtam
- 4.2K Statistiques
- 3.7K Topologie
- 1.4K Vie du Forum et de ses membres