Analyse de données-matrice de similarité

Bonsoir,
Je travaille sur des systèmes de recommandations à partir d'une base de données de la forme (Utilisateurs x Produit) où chaque case contient les notes données par les utilisateurs aux différents produits, et j'ai établi un algorithme semblable aux k plus proches voisins mais avec comme métrique de similarité le cosinus au lieu de la distance.
Selon les conseils qu'on ma donné, je devrais établir des notes prédites pour mon utilisateur cible, puis pour valider mon modèle, je devrais aussi utiliser ces mêmes notes prédites pour calculer le RMSE.
Je ne comprends pas pourquoi je devrais faire cela, pour moi le problème n'est pas un problème de régression mais de classification, donc pas besoin de prédiction ou de RMSE.
De plus, la formule des notes prédites est une sorte de score barycentrique (barycentre des similarités), est-ce une méthode connue en analyse de données, je n'en n'avais pas entendu parler avant.
Merci d'avance pour votre aide.

Réponses

  • Bonjour,

    Si vous vous tournez vers l'Analyse Discriminante Linéaire ou Quadratique, la régression logistique ainsi que d'autres modèles discriminants : il y aura alors cette notion d'erreurs d'apprentissage et de test qui semble vous poser problème.

    Cordialement.
  • Bonjour,

    En fait, l'analyse discriminante de Fisher, avec le fameux jeux de données sur les iris, utilise un critère métrique pour l'affectation de nouveaux individus à un groupe.
    Cette allocation est bien barycentrique au sens où l'individu le plus proche du centre d'un groupe lui est affecté.
    La distance utilisée est la distance de Mahalanobis qui est l'inverse de la matrice de variance-covariance intraclasse en rapport avec l'égalité de la matrice de variance-covariance totale somme des matrices de variance-covariance interclasse et intraclasse.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.