Résoudre un processus markovien sous Python
Bonjour,
J'ai un problème que j ai modélisé sous forme MDP (Markov decision process). Maintenant je veux le résoudre sous Python en utilisant mdptoolbox, mais je ne sais pas d'où je commence (c' est ma première fois). S'il vous plait, pouvez- vous me dire comment je dois procéder ?
NB: je travaille sous Ubuntu.
Merci d´avance.
J'ai un problème que j ai modélisé sous forme MDP (Markov decision process). Maintenant je veux le résoudre sous Python en utilisant mdptoolbox, mais je ne sais pas d'où je commence (c' est ma première fois). S'il vous plait, pouvez- vous me dire comment je dois procéder ?
NB: je travaille sous Ubuntu.
Merci d´avance.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
j'ai le méme probléme avec vous ,j'essaie de résoudre mon probléme sur mdptoolbox , est que vous pouvez me dire comment vous l'avez résolu
cordialement
Pour la résolution du MDP sous python en utilisant mdptoolbox, il faut d'abord installer le package de mdptoolbox suivant le guide. Ensuite il faut définir les tableaux de probabilités et de reward. Pour les tableaux de probabilité et de reward ils doivent être array sous la forme (A, S, S) tel que A est le nombre d'actions et S est le nombre de state états (un array sous la forme (A,S,S) est un array de A tableaux, chaque tableau parmi les A tableaux est une matrice de S*S). Après moi j'ai utilisé la fonction Policy Iteration. Cette dernière elle prend en paramètres le tableau de probabilité (p) et le tableau de reward (r) et le discount factor (0.9). L 'appel se fait comme suit : Après avoir exécuté la fonction Policy Iteration et trouvé la policy qui est retournée dans la variable pi (la policy est l'action choisie dans chaque state état), tu peux définir un scenario et t'utilises la policy retournée par le mdptoolbox.
Bon courage et bonne chance.