Validation croisée, méthode des k-folds

Bonjour à toutes et tous
Je souhaiterais savoir quel modèle retenir dans une validation croisée par la méthode des $k$-folds...
Pour rappel, voici comment Wikipedia décrit cette méthode.

On divise l'échantillon original en $k$ échantillons, puis on sélectionne un des $k$ échantillons comme ensemble de validation et les $k-1$ autres échantillons constitueront l'ensemble d'apprentissage. On calcule [...] le score de performance, puis on répète l'opération en sélectionnant un autre échantillon de validation parmi les $k-1$ échantillons qui n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi $k$ fois pour qu'en fin de compte chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de validation. La moyenne des $k$ erreurs quadratiques moyennes est enfin calculée pour estimer l'erreur de prédiction.

En procédant ainsi, on aura $k$ estimations des paramètres du modèle. Faut-il retenir une de ces $k$ estimations ? Ou bien faut-il en faire la moyenne ?

Réponses

  • Bonjour,
    Non, pour chaque valeur possible du paramètre du modèle, tu fais une validation croisée avec les $k$ "folds" et donc pour chaque valeur du paramètre (en pratique, on définit une grille finie de valeurs), tu obtiens un MSE moyen sur les $k$ folds. Il suffit de choisir la valeur du paramètre qui minimise ce MSE moyen. Ainsi, si tu as $p$ valeurs possibles pour le paramètre, il y aura $pk$ étapes de validation.
  • Bonjour

    La validation croisée sert à vérifier que l'on n'ait pas de sur-apprentissage, ainsi qu'à choisir le meilleur hyper-paramétrage du modèle.

    Comme dit dans le post précédent, tu définis une grille de hyper-paramètres (si le modèle en contient, par exemple, pour une régression linéaire on n'en a pas, les paramètres étant estimés sans que l'on ait besoin de choisir, par contre pour une ridge regression, il y a un choix "arbitraire" à effectuer), puis tu effectues une validation croisée (via k-fold par exemple), et tu retiens à la fin l'hyper-paramètre (ou le jeu d'hyper-paramètres) minimisant la somme des carrés des erreurs.

    Puis, sur l'ensemble des données, tu construis le modèle final (avec le/les hyper-paramètre(s) choisi(s) précédemment). Modèle qui estimera par lui-même les paramètres qui lui sont propres (comme dans le cas d'une régression linéaire, les coefficients).
  • Bonjour, et merci à vous deux, c'est beaucoup plus clair :-)
Connectez-vous ou Inscrivez-vous pour répondre.