Apprentissage statistiques
dans Statistiques
Bonsoir, je dispose des données dont l'objectif est d'améliorer la prévision déterministe calculée par les services de Météo-France de la concentration quantitative d'ozone dans certaines stations de prélèvement. Pour y parvenir on s'intéresse à la concentration quantitative d'ozone d'une part et d'autre part au dépassement qualitatif d'un certain seuil fixé à $150\mu g$.
On procède de deux façons, dont je présenterai la première.
On prévoit la concentration quantitative d'ozone, puis on déduit l'éventuel dépassement.
Notre objectif est de choisir le modèle qui généralise au mieux nos données.
Pour y parvenir on applique l'algorithme de validation croisée à la méthode de régression et on répète l'opération 10 fois rg on obtient les résultats ci joints.
Avec la matrice des erreurs de régression, je constate que le modèle qui prévoit le mieux la concentration quantitative d'ozone est le modèle numéro 1, mais par contre tl n'a pas le meilleur seuil de dépassement.
Dans l'ensemble est-ce toujours lui le meilleur modèle ?
Merci d'avance pour votre aide.
On procède de deux façons, dont je présenterai la première.
On prévoit la concentration quantitative d'ozone, puis on déduit l'éventuel dépassement.
Notre objectif est de choisir le modèle qui généralise au mieux nos données.
Pour y parvenir on applique l'algorithme de validation croisée à la méthode de régression et on répète l'opération 10 fois rg on obtient les résultats ci joints.
Avec la matrice des erreurs de régression, je constate que le modèle qui prévoit le mieux la concentration quantitative d'ozone est le modèle numéro 1, mais par contre tl n'a pas le meilleur seuil de dépassement.
Dans l'ensemble est-ce toujours lui le meilleur modèle ?
Merci d'avance pour votre aide.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Je vois qu'en pièce-jointe il y une unique feuille dont, j'ai l'impression, on ne peux tirée que peu de choses.
Pour ta question est-ce le meilleur modèle ? Avec les données qui te sont disponibles par validation croisée, supposons que des nouvelles données sur les variables du modèle deviennent complétement différentes à ce qui a été testé (variance, corrélations,...), cela ne sera pas le modèle optimal (je pense que tu n'es pas devin !).
En résumé, je pense qu'en pratique : c'est le modèle le plus adapté mais on ne pas dire que c'est le meilleur modèle quoi qu'il en soit.
Commentaires de ta part et aussi à suivre !
Bien cordialement.
Le modèle retenu sera bien celui dont la fonction de coût est la plus faible sur l'échantillon test.
Dans la deuxième approche concernant le seuil, la fonction de coût sera le pourcentage de bien classés sur l'échantillon test (vous avez deux classes en-dessous/au-dessus du seuil).
A suivre.
Cordialement.
Entendu. Je ne pourrai pas vous donner un coup de main dans le courant de la semaine. Si, ce week-end vous avez encore des difficultés, je regarderai avec beaucoup plus d'attention ce qui vous est demandé. D'autre part, vous pouvez m'envoyer des messages en "messagerie privée".
Bonne semaine.
Une simple petite remarque, j'ai l'impression que vous vous méprenez sur la validation croisée (ang. k-fold Cross-Validation ou en abrégé k-fold CV). Je prends le contenu du tout premier post : vous utilisez une 10-fold CV et vous allez avoir 10 valeurs de l'erreur du modèle sur différents jeux de données. La simple moyenne de ces 10 valeurs permettra une meilleure estimation de l'erreur du modèle. On ne peut donc pas, à cette étape là, dire quel est le meilleur modèle. Je vous conseillerais, pour votre rapport, de voir le choix des meilleurs sous-ensembles de variables pour la régression linéaire multiple.
Cordialement.
Tu verras que pour eux le meilleur modèle est celui qui possède la plus petite erreur de généralisation et cela corrobore avec le cours qui dit bien que la meilleur fonction de prédictions est celle qui possède la plus petite erreur de généralisation.
Concernant l'objectif, je ne dis pas autre chose que vous : le meilleur modèle celui qui l'erreur de généralisation la plus faible. Cependant, on doit avoir une bonne estimation de cette erreur.
Comme on a peu de données, la validation croisée va nous permettre d'avoir cette estimation plus fiable. Pour moi, la première colonne est correspond à 10 estimations du risque empirique sur le même modèle et la moyenne de ces 10 valeurs est l'estimation du risque la plus juste.
Je reprends un passage du contenu du site que vous avez mis en référence :"...la performance de mon modèle :
- soit en évaluant les prédictions faites sur l’ensemble des données (puisque j’ai fait une prédiction par point du jeu de données complet) ;
- soit en moyennant les performances obtenues sur les k folds, auquel cas je peux aussi rapporter l’erreur type, pour quantifier la variation de ces performances sur les k folds...."
Cordialement.
Bon courage.
On a ce seuil de $150\mu g$
On ne peut pas réduire les données à des données binaires Au-dessus/au-dessous de ce seuil. Mais on s'intéresse quand même particulièrement à ce seuil. Si un modèle se plante et prévoit 110 au lieu de 137 ... ça fait une différence de 27, mais d'une certaine façon, on s'en moque.
Par contre si un modèle prévoit pour le même point 152 au lieu de 137, ça fait une différence de 15 seulement, mais c'est plus gênant que l'erreur précédente.
Cela est-il pris en compte dans les différents scénarios envisagés ?
C'est un problème de régression ou de classification discrimination (le seuil étant une valeur d'intérêt) selon ce que l'on souhaite obtenir.
Cordialement.
Ainsi, une différence de 2 ou 3 points pèsera beaucoup plus lourd dans la balance si c'est pour une valeur proche de 150 que pour une valeur loin de ce seuil.
@lourran : il y a une part d'inventivité (paraît-il) dans l'apprentissage statistique mais il ne s'agit pas qu'elle parte dans tous les sens. De plus, il est préférable de faire ce qui est demandé et d'apprendre à comment le faire pour par la suite se permettre de faire des expériences. Mon message paraît un peu sentencieux mais Proust de m'aide pas en ce moment. D'autre part, il est vrai que l'on puisse transformer des variables pour avoir de meilleurs modèles. Toujours, est-il qu'en résumé : régression ou discrimination (pas besoin d'effet loupe).
Cordialement.