Apprentissage statistiques

Bonsoir, je dispose des données dont l'objectif est d'améliorer la prévision déterministe calculée par les services de Météo-France de la concentration quantitative d'ozone dans certaines stations de prélèvement. Pour y parvenir on s'intéresse à la concentration quantitative d'ozone d'une part et d'autre part au dépassement qualitatif d'un certain seuil fixé à $150\mu g$.
On procède de deux façons, dont je présenterai la première.
On prévoit la concentration quantitative d'ozone, puis on déduit l'éventuel dépassement.
Notre objectif est de choisir le modèle qui généralise au mieux nos données.
Pour y parvenir on applique l'algorithme de validation croisée à la méthode de régression et on répète l'opération 10 fois rg on obtient les résultats ci joints.
Avec la matrice des erreurs de régression, je constate que le modèle qui prévoit le mieux la concentration quantitative d'ozone est le modèle numéro 1, mais par contre tl n'a pas le meilleur seuil de dépassement.
Dans l'ensemble est-ce toujours lui le meilleur modèle ?
Merci d'avance pour votre aide.

Réponses

  • Bonjour,

    Je vois qu'en pièce-jointe il y une unique feuille dont, j'ai l'impression, on ne peux tirée que peu de choses.
    Pour ta question est-ce le meilleur modèle ? Avec les données qui te sont disponibles par validation croisée, supposons que des nouvelles données sur les variables du modèle deviennent complétement différentes à ce qui a été testé (variance, corrélations,...), cela ne sera pas le modèle optimal (je pense que tu n'es pas devin !).
    En résumé, je pense qu'en pratique : c'est le modèle le plus adapté mais on ne pas dire que c'est le meilleur modèle quoi qu'il en soit.

    Commentaires de ta part et aussi à suivre !

    Bien cordialement.
  • Bonsoir, voici le document original je pense qu'avec tu veras mieux Et le deuxième se sont les taux de dépassement seuil que j'ai obtenu en compilant avec R.
  • Je ne comprends pas pourquoi vous utilisez la validation croisée puisque que vous devez avez avoir pléthore de données ce qui se traduit par la construction des modèles sur un échantillon d'apprentissage dont la qualité de généralisation sur un échantillon test devra être bonne.
    Le modèle retenu sera bien celui dont la fonction de coût est la plus faible sur l'échantillon test.
    Dans la deuxième approche concernant le seuil, la fonction de coût sera le pourcentage de bien classés sur l'échantillon test (vous avez deux classes en-dessous/au-dessus du seuil).
    A suivre.
    Cordialement.
  • Justement il estime que nous n'avons pas suffisamment de données. Et dans le but d'éviter un sur-apprentissage, on découpe nos données en deux. Et on le répète plusieurs fois.
  • Bonjour,
    Entendu. Je ne pourrai pas vous donner un coup de main dans le courant de la semaine. Si, ce week-end vous avez encore des difficultés, je regarderai avec beaucoup plus d'attention ce qui vous est demandé. D'autre part, vous pouvez m'envoyer des messages en "messagerie privée".
    Bonne semaine.
  • Bonjour,

    Une simple petite remarque, j'ai l'impression que vous vous méprenez sur la validation croisée (ang. k-fold Cross-Validation ou en abrégé k-fold CV). Je prends le contenu du tout premier post : vous utilisez une 10-fold CV et vous allez avoir 10 valeurs de l'erreur du modèle sur différents jeux de données. La simple moyenne de ces 10 valeurs permettra une meilleure estimation de l'erreur du modèle. On ne peut donc pas, à cette étape là, dire quel est le meilleur modèle. Je vous conseillerais, pour votre rapport, de voir le choix des meilleurs sous-ensembles de variables pour la régression linéaire multiple.

    Cordialement.
  • J'ai lu le principe de validation croisée sur le site d'openclassroom, voici le lien \url {https://openclassrooms.com/fr/courses/4297211-evaluez-et-ameliorez-les-performances-dun-modele-de-machine-learning/4308241-mettez-en-place-un-cadre-de-validation-croisee}.
    Tu verras que pour eux le meilleur modèle est celui qui possède la plus petite erreur de généralisation et cela corrobore avec le cours qui dit bien que la meilleur fonction de prédictions est celle qui possède la plus petite erreur de généralisation.
  • Bonjour,

    Concernant l'objectif, je ne dis pas autre chose que vous : le meilleur modèle celui qui l'erreur de généralisation la plus faible. Cependant, on doit avoir une bonne estimation de cette erreur.
    Comme on a peu de données, la validation croisée va nous permettre d'avoir cette estimation plus fiable. Pour moi, la première colonne est correspond à 10 estimations du risque empirique sur le même modèle et la moyenne de ces 10 valeurs est l'estimation du risque la plus juste.

    Je reprends un passage du contenu du site que vous avez mis en référence :"...la performance de mon modèle :
    - soit en évaluant les prédictions faites sur l’ensemble des données (puisque j’ai fait une prédiction par point du jeu de données complet) ;
    - soit en moyennant les performances obtenues sur les k folds, auquel cas je peux aussi rapporter l’erreur type, pour quantifier la variation de ces performances sur les k folds...."

    Cordialement.
  • Je ne vais pas batailler sur l'application de la validation croisée. Si, vous pensez avoir la bonne approche alors vous n'avez pas besoin de moi.
    Bon courage.
  • Je viens de lire en diagonale, et je vais faire juste une remarque.
    On a ce seuil de $150\mu g$
    On ne peut pas réduire les données à des données binaires Au-dessus/au-dessous de ce seuil. Mais on s'intéresse quand même particulièrement à ce seuil. Si un modèle se plante et prévoit 110 au lieu de 137 ... ça fait une différence de 27, mais d'une certaine façon, on s'en moque.
    Par contre si un modèle prévoit pour le même point 152 au lieu de 137, ça fait une différence de 15 seulement, mais c'est plus gênant que l'erreur précédente.
    Cela est-il pris en compte dans les différents scénarios envisagés ?
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Bonjour,

    C'est un problème de régression ou de classification discrimination (le seuil étant une valeur d'intérêt) selon ce que l'on souhaite obtenir.

    Cordialement.
  • Mon idée était d'appliquer une fonction 'loupe' autour du point 150. On remplace les valeurs $y$ par $y' = \arctan(y-150)$ ou quelque chose comme ça. Et ensuite, on applique un outil de régression.
    Ainsi, une différence de 2 ou 3 points pèsera beaucoup plus lourd dans la balance si c'est pour une valeur proche de 150 que pour une valeur loin de ce seuil.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Bonjour,

    @lourran : il y a une part d'inventivité (paraît-il) dans l'apprentissage statistique mais il ne s'agit pas qu'elle parte dans tous les sens. De plus, il est préférable de faire ce qui est demandé et d'apprendre à comment le faire pour par la suite se permettre de faire des expériences. Mon message paraît un peu sentencieux mais Proust de m'aide pas en ce moment. D'autre part, il est vrai que l'on puisse transformer des variables pour avoir de meilleurs modèles. Toujours, est-il qu'en résumé : régression ou discrimination (pas besoin d'effet loupe).

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.