Algorithme "latent Dirichlet allocation"
Bonjour
J'essaie de comprendre intuitivement comment fonctionne l'algo LDA (je garde les notations de Wikipédia) : https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation#Generative_process en me basant sur mes souvenirs de compréhension de l'Algorithme EM.
Si je comprends bien l'initialisation consiste à affecter aléatoirement à chaque mot du corpus de documents un "topic".
Du coup cela nous permet d'inférer les distributions de Dirichlet alpha et beta (si oui comment ? [1]) :
- pour générer les distributions de topics dans les documents ;
- pour générer les distributions de mots dans les topics.
Dès lors à l'aide de ces distributions on peut réaffecter des topics aux mots (via le process génératif décrit dans Wikipédia).
En réitérant ce processus on arrive à une sorte de "stabilisation".
Comment ?
Ai-je bien compris la mécanique de l'algo (ou une mécanique donnée s'il en existe plusieurs) ? Comment expliquer [1] ?
Edit : pour [1] je peux imaginer que si l'on connaît l'affectation des topics à chaque mot de chaque document on est capable de donner les distributions multinomiales de topics dans chaque documents (les proportions observées seront utilisées au titre de distributions) et donc de retrouver alpha ? Et si l'on se sert de l'ensemble des associations mot-topic on peut rassembler tous les mots se rapportant à un topic donné et obtenir une distribution de mots pour un topic donné et donc retrouver beta ?
J'essaie de comprendre intuitivement comment fonctionne l'algo LDA (je garde les notations de Wikipédia) : https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation#Generative_process en me basant sur mes souvenirs de compréhension de l'Algorithme EM.
Si je comprends bien l'initialisation consiste à affecter aléatoirement à chaque mot du corpus de documents un "topic".
Du coup cela nous permet d'inférer les distributions de Dirichlet alpha et beta (si oui comment ? [1]) :
- pour générer les distributions de topics dans les documents ;
- pour générer les distributions de mots dans les topics.
Dès lors à l'aide de ces distributions on peut réaffecter des topics aux mots (via le process génératif décrit dans Wikipédia).
En réitérant ce processus on arrive à une sorte de "stabilisation".
Comment ?
Ai-je bien compris la mécanique de l'algo (ou une mécanique donnée s'il en existe plusieurs) ? Comment expliquer [1] ?
Edit : pour [1] je peux imaginer que si l'on connaît l'affectation des topics à chaque mot de chaque document on est capable de donner les distributions multinomiales de topics dans chaque documents (les proportions observées seront utilisées au titre de distributions) et donc de retrouver alpha ? Et si l'on se sert de l'ensemble des associations mot-topic on peut rassembler tous les mots se rapportant à un topic donné et obtenir une distribution de mots pour un topic donné et donc retrouver beta ?
Connectez-vous ou Inscrivez-vous pour répondre.