Machine learning

Bonjour,

Voici ce que j'ai compris du cours d'apprentissage statistique, qu'en pensez vous ? Ai je bien compris ?

En apprentissage statistique on s'intéresse aux classifieurs qui minimisent une certaine fonction de perte. Par exemple (dites moi si je me trompe):
- pour la perte quadratique (dans le cadre de la regression) le classifieur optimal est la fonction de regression
- pour la perte 0-1 le classifieur optimal est le classifieur de Bayes.
Ainsi en terme théorique nos deux champions sont: en regression le classifieur donné par la fonction de regression, en classification: le classifieur de Bayes.

Comme on a pas accès aux distributions de nos données on n'a pas accès aux deux classifieurs théoriques précédents. On adopte donc la stratégie suivante:
- (ERM) on s'interesse aux moyennes empiriques de la fonction de perte appliquée à un classifieur donné (notre champion). On cherche à minimiser ce risque empirique!
- (Classe restreinte): on restreint la classe des candidats pour être classifieur (il s'agit du compromis biais variance pour réduire le sur-apprentissage en espérant ainsi réduire l'erreur de généralisation).

On fixe donc une classe de classifieurs et parmis les candidats de cette classe on regarde celui qui minimise l'erreur empirique. Malheureusement pour la perte 0-1 minimiser le risque empirique de manière exhaustive est un problème très couteux. On cherche donc des méthodes plus adaptées comme la descente de gradient. Cette dernière méthode est particulièrement efficace dans le cas de la minimisation d'une fonction convexe. On est donc amené à convexifier la fonction de risque: dans le cas de la perte quadratique on a déjà une fonction convexe, pour la perte 0-1 il existe plusieurs manière de convexifier ce rique (le hinge Loss, e^-x,....)

Réponses

  • Mais je ne comprends plus grand chose à la lecture du début de ce poly, il semble que pour les algorithmes de boosting on minimise également uune fonction de perte; cf ci-dessous:
    https://snag.gy/8rZQLI.jpg

    Pourtant en regardant droit dans les yeux Adaboost on voit que l'on effectue une minimisation itérative (on minimise la perte exponentielle de manière itérative) ce qui n'a rien à voir à priori avec le fait de trouver un classifieur qui minimise une fonction de perte donnée dans l'ensemble des classifieurs $C=\{\text{combinaison linéaires de classifieurs faibles}\}$.
Connectez-vous ou Inscrivez-vous pour répondre.