Pensez à lire la Charte avant de poster !

$\newcommand{\K}{\mathbf K}$


Les-Mathematiques.net - Cours de mathématiques supérieures
 Les-Mathematiques.net - Cours de mathématiques universitaires - Forum - Cours à télécharger

A lire
Deug/Prépa
Licence
Agrégation
A télécharger
Télécharger
156 personne(s) sur le site en ce moment
E. Cartan
A lire
Articles
Math/Infos
Récréation
A télécharger
Télécharger
Théorème de Cantor-Bernstein
Théo. Sylow
Théo. Ascoli
Théo. Baire
Loi forte grd nbre
Nains magiques
 
 
 
 
 

Apprentissage statistique-perceptron-Hastie

Envoyé par student2 
Apprentissage statistique-perceptron-Hastie
l’an passé
Bonjour
Je m’intéresse aux méthodes de classification linéaire, en particulier le "perceptron" (réseau de neurone le plus simple).
Les réseaux de neurones utilisent généralement la descente de gradient, pourtant dans cet exemple très simple (qu'est le modèle du perceptron), la fonction de coût n'est pas différentiable (on a les fonctions max et sign qui ne le sont pas).
Pourtant dans le livre de référence "Statistical Learning" [web.stanford.edu] p131 (taper p150 dans la recherche de page), les auteurs définissent la fonction de coût $D\left(\beta, \beta_{0}\right)=-\sum_{i \in \mathcal{M}} y_{i}\left(x_{i}^{T} \beta+\beta_{0}\right)$ (j'obtiens le même résultat justifié dans le rappel) et se permettent de prendre le gradient par rapport aux paramètres
\begin{aligned} \partial \frac{D\left(\beta, \beta_{0}\right)}{\partial \beta} &=-\sum_{i \in \mathcal{M}} y_{i} x_{i} \\ \partial \frac{D\left(\beta, \beta_{0}\right)}{\partial \beta_{0}} &=-\sum_{i \in \mathcal{M}} y_{i}
\end{aligned} malgré le fait que $\mathcal{M}$ dépend évidemment des paramètres !!
Du coup je fais appel à vous mathématiciens. Comment justifier un tel résultat ? Peut-on formaliser ce résultat avec des notions plus complexes (sous-gradients, etc...) où est-ce simplement un résultat empirique/une heuristique du fait que les "endroits" où il n'y a pas différentiabilité ne sont pas nombreux ?


Rappel: L'architecture est la suivante nous ne disposons que de deux couches : une couche d'entrée et une couche de sortie. La couche d'entrée subit une transformation affine suivie de la fonction d'activation Heaviside (la fonction signe si le seuil est $\theta=0$) qui retourne la valeur $1$ ("activation du neurone") si la combinaison affine qu'elle reçoit en entrée dépasse un certain seuil et retourne $-1$ sinon.
On a donc $\hat{y} (=
f(x))=sign(w^Tx+b)=\begin{cases}1 & w^Tx+b>0 \\
-1 & sinon
\end{cases}$.
La perte ("loss function") sur un exemple d'apprentissage est donnée par :$$
l(f(x_i),y_i)=\max(0,-y_if(x_i))=\max(0,-y_i sign(w^Tx+b)) =\begin{cases}0 & si \ \hat{y}_i=y_i \\
1 & sinon
\end{cases}
$$ qui est bien nul si la prédiction est égale à $y_i$. La fonction de coût ("Cost function") sur l'ensemble d'apprentissage est donc donnée par : $$\mathcal{L}(f(x_i),y_i)=\sum_i\max(0,-y _i\ sign(w^Tx_i+b) =\sum_{i \in \mathcal{M}}-y_i \ sign(w^Tx_i+b) .$$ cf. Hastie &Tibshirani.



Edité 4 fois. La dernière correction date de l’an passé et a été effectuée par student2.
Seuls les utilisateurs enregistrés peuvent poster des messages dans ce forum.

Cliquer ici pour vous connecter

Liste des forums - Statistiques du forum

Total
Discussions: 145 192, Messages: 1 445 229, Utilisateurs: 27 183.
Notre dernier utilisateur inscrit Mikahopff.


Ce forum
Discussions: 8 839, Messages: 66 743.

 

 
©Emmanuel Vieillard Baron 01-01-2001
Adresse Mail:

Inscription
Désinscription

Actuellement 16057 abonnés
Qu'est-ce que c'est ?
Taper le mot à rechercher

Mode d'emploi
En vrac

Faites connaître Les-Mathematiques.net à un ami
Curiosités
Participer
Latex et autres....
Collaborateurs
Forum

Nous contacter

Le vote Linux

WWW IMS
Cut the knot
Mac Tutor History...
Number, constant,...
Plouffe's inverter
The Prime page