Validation croisée, méthode des k-folds
dans Statistiques
Bonjour à toutes et tous
Je souhaiterais savoir quel modèle retenir dans une validation croisée par la méthode des $k$-folds...
Pour rappel, voici comment Wikipedia décrit cette méthode.
On divise l'échantillon original en $k$ échantillons, puis on sélectionne un des $k$ échantillons comme ensemble de validation et les $k-1$ autres échantillons constitueront l'ensemble d'apprentissage. On calcule [...] le score de performance, puis on répète l'opération en sélectionnant un autre échantillon de validation parmi les $k-1$ échantillons qui n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi $k$ fois pour qu'en fin de compte chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de validation. La moyenne des $k$ erreurs quadratiques moyennes est enfin calculée pour estimer l'erreur de prédiction.
En procédant ainsi, on aura $k$ estimations des paramètres du modèle. Faut-il retenir une de ces $k$ estimations ? Ou bien faut-il en faire la moyenne ?
Je souhaiterais savoir quel modèle retenir dans une validation croisée par la méthode des $k$-folds...
Pour rappel, voici comment Wikipedia décrit cette méthode.
On divise l'échantillon original en $k$ échantillons, puis on sélectionne un des $k$ échantillons comme ensemble de validation et les $k-1$ autres échantillons constitueront l'ensemble d'apprentissage. On calcule [...] le score de performance, puis on répète l'opération en sélectionnant un autre échantillon de validation parmi les $k-1$ échantillons qui n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi $k$ fois pour qu'en fin de compte chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de validation. La moyenne des $k$ erreurs quadratiques moyennes est enfin calculée pour estimer l'erreur de prédiction.
En procédant ainsi, on aura $k$ estimations des paramètres du modèle. Faut-il retenir une de ces $k$ estimations ? Ou bien faut-il en faire la moyenne ?
Réponses
-
Bonjour,
Non, pour chaque valeur possible du paramètre du modèle, tu fais une validation croisée avec les $k$ "folds" et donc pour chaque valeur du paramètre (en pratique, on définit une grille finie de valeurs), tu obtiens un MSE moyen sur les $k$ folds. Il suffit de choisir la valeur du paramètre qui minimise ce MSE moyen. Ainsi, si tu as $p$ valeurs possibles pour le paramètre, il y aura $pk$ étapes de validation. -
Bonjour
La validation croisée sert à vérifier que l'on n'ait pas de sur-apprentissage, ainsi qu'à choisir le meilleur hyper-paramétrage du modèle.
Comme dit dans le post précédent, tu définis une grille de hyper-paramètres (si le modèle en contient, par exemple, pour une régression linéaire on n'en a pas, les paramètres étant estimés sans que l'on ait besoin de choisir, par contre pour une ridge regression, il y a un choix "arbitraire" à effectuer), puis tu effectues une validation croisée (via k-fold par exemple), et tu retiens à la fin l'hyper-paramètre (ou le jeu d'hyper-paramètres) minimisant la somme des carrés des erreurs.
Puis, sur l'ensemble des données, tu construis le modèle final (avec le/les hyper-paramètre(s) choisi(s) précédemment). Modèle qui estimera par lui-même les paramètres qui lui sont propres (comme dans le cas d'une régression linéaire, les coefficients). -
Bonjour, et merci à vous deux, c'est beaucoup plus clair :-)
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 163.2K Toutes les catégories
- 9 Collège/Lycée
- 21.9K Algèbre
- 37.1K Analyse
- 6.2K Arithmétique
- 53 Catégories et structures
- 1K Combinatoire et Graphes
- 11 Sciences des données
- 5K Concours et Examens
- 11 CultureMath
- 47 Enseignement à distance
- 2.9K Fondements et Logique
- 10.3K Géométrie
- 65 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 69 Informatique théorique
- 3.8K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 314 Mathématiques et Physique
- 4.9K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10K Probabilités, théorie de la mesure
- 773 Shtam
- 4.2K Statistiques
- 3.7K Topologie
- 1.4K Vie du Forum et de ses membres