Apprentissage statistique-perceptron-Hastie

Bonjour
Je m’intéresse aux méthodes de classification linéaire, en particulier le "perceptron" (réseau de neurone le plus simple).
Les réseaux de neurones utilisent généralement la descente de gradient, pourtant dans cet exemple très simple (qu'est le modèle du perceptron), la fonction de coût n'est pas différentiable (on a les fonctions max et sign qui ne le sont pas).
Pourtant dans le livre de référence "Statistical Learning" https://web.stanford.edu/~hastie/Papers/ESLII.pdf p131 (taper p150 dans la recherche de page), les auteurs définissent la fonction de coût $D\left(\beta, \beta_{0}\right)=-\sum_{i \in \mathcal{M}} y_{i}\left(x_{i}^{T} \beta+\beta_{0}\right)$ (j'obtiens le même résultat justifié dans le rappel) et se permettent de prendre le gradient par rapport aux paramètres
\begin{aligned} \partial \frac{D\left(\beta, \beta_{0}\right)}{\partial \beta} &=-\sum_{i \in \mathcal{M}} y_{i} x_{i} \\ \partial \frac{D\left(\beta, \beta_{0}\right)}{\partial \beta_{0}} &=-\sum_{i \in \mathcal{M}} y_{i}
\end{aligned} malgré le fait que $\mathcal{M}$ dépend évidemment des paramètres !!
Du coup je fais appel à vous mathématiciens. Comment justifier un tel résultat ? Peut-on formaliser ce résultat avec des notions plus complexes (sous-gradients, etc...) où est-ce simplement un résultat empirique/une heuristique du fait que les "endroits" où il n'y a pas différentiabilité ne sont pas nombreux ?
Rappel: L'architecture est la suivante nous ne disposons que de deux couches : une couche d'entrée et une couche de sortie. La couche d'entrée subit une transformation affine suivie de la fonction d'activation Heaviside (la fonction signe si le seuil est $\theta=0$) qui retourne la valeur $1$ ("activation du neurone") si la combinaison affine qu'elle reçoit en entrée dépasse un certain seuil et retourne $-1$ sinon.
On a donc $\hat{y} (=
f(x))=sign(w^Tx+b)=\begin{cases}1 & w^Tx+b>0 \\
-1 & sinon
\end{cases}$.
La perte ("loss function") sur un exemple d'apprentissage est donnée par :$$
l(f(x_i),y_i)=\max(0,-y_if(x_i))=\max(0,-y_i sign(w^Tx+b)) =\begin{cases}0 & si \ \hat{y}_i=y_i \\
1 & sinon
\end{cases}
$$ qui est bien nul si la prédiction est égale à $y_i$. La fonction de coût ("Cost function") sur l'ensemble d'apprentissage est donc donnée par : $$\mathcal{L}(f(x_i),y_i)=\sum_i\max(0,-y _i\ sign(w^Tx_i+b) =\sum_{i \in \mathcal{M}}-y_i \ sign(w^Tx_i+b) .$$ cf. Hastie &Tibshirani.
Connectez-vous ou Inscrivez-vous pour répondre.