Question sur n-gramme, contexte particulier

$\newcommand{\sim}{\operatorname{sim}}\newcommand{\simcount}{\operatorname{simcount}}$Bonjour
Je lisais cet article An MDP-Based Recommender System qui traite d'une manière de construire un processus de décision markovien basé sur des chaînes de Markov. Ce modèle des chaînes de Markov est similaire à ce qui est appelé n-gramme en traitement automatique des langues. Le but est de calculer les transitions de séquence de type $(x_{1},\ldots,x_{k})$ à des séquences de type $(x_{2},\ldots,x_{k},x')$. Je pense que les auteurs veulent avoir une distribution de probabilité telle que si on a un utilisateur, qui consulte un site d'actualité, $u_{i}$ pour lequel on observe des lecture d'articles $(x_{i},\ldots,x_{i+k-2})$, on pourra lui proposer l'article $x_{i+k-1}$ tel que cet article maximise la probabilité de transition des séquences $(x', x_{i},\ldots,x_{i+k-2})$ pour $x'$ quelconque vers $(x_{i},\ldots,x_{i+k-2},x_{i+k-1})$.

Sauf que pratiquement, il est difficile d'avoir cette séquence $(x_{i},\ldots,x_{i+k-2})$ qui est partagée par l'utilisateur qui vient consulter le site web et toutes les séquences utilisateur qu'on a comme données. C'est très rare qu'un utilisateur ait un historique de lecture d'articles $(x', x_{i},\ldots,x_{i+k-2})$ . Je comprends que ce modèle marche très bien pour le traitement automatique des langues où on a des corpus gigantesques de textes mais dans ce contexte particulier j'en doute un peu et j'aimerais vous demander votre avis.

Mais ce que je ne comprends vraiment pas c'est la technique de clustering que les auteurs ont introduit pour améliorer leur méthode de vraisemblance. Les auteurs introduisent cette mesure de similarité entre deux séquences : $\sim(s_{i}, s_{j}) = \sum_{m=1}^{k}{\delta(s_{i}^{m}, s_{j}^{m})(m+1)}$ où $\delta$ est le $\delta$ de Kronecker et $s_{i}^{m}$ est le $m$-ième élément de la séquence $s_{i}$. Et après ils introduisent ce qu'ils appellent compteur de similarité : $$\simcount(s, s') = \sum_{s_{i}}^{}{\sim(s, s_{i}).Tr(s_{i}, s)},$$ où $Tr(s_{i}, s)$ est la probabilité de transition de la séquence $s_{i}$ à la séquence $s$. Sauf que pour calculer la probabilité de transition de $s_{i}$ à $s'$, il faut que les $k-1$ premiers éléments de $s'$ soient les $k-1$ derniers éléments de $s_{i}$, et donc en fixant un $s'$, on fixe aussi les $s_{i}$ possibles, et en fin de compte la mesure de similarité entre $s$ et $s_{i}$ sera toujours la même sauf si $s_{i}=s$. Je ne vois pas trop comment ces notions améliorent en fait la fonction donnant les probabilités de transition même s'ils donnent (avec quelques modifications de notation de ma part) : $$Tr_{nv}(s, s')=\frac{1}{2}Tr(s_{i}, s)+\frac{1}{2}\dfrac{\simcount(s,s')}{\sum_{s''}^{}{\simcount(s, s'')}}.

$$ Je me demande en fait si j'ai mal compris les notions en jeu et leur interaction ou les auteurs par souci de concision ont omis certains détails. J'espère que vous pourrez m'aider à mieux comprendre la théorie pour avoir une idée claire de la mise en pratique.
Merci d'avance.
Connectez-vous ou Inscrivez-vous pour répondre.