Optimisation stochastique

Hey coucou guys !

j'ai essayé de faire cet exercice mais je suis pas trop sûre de mes demarches , pourriez vous me donner un coup de main svp :-)

j'ai joint le fichier afin de faciliter la lecture

On considère un programme dynamique en horizon infini dans lequel l’ensemble des états est X = {1, 2). L’ensemble des décisions admissibles pour ces deux états est identique; il est dénoté U = {u1, u2}. Les matrices de transition associées aux décisions u1 et u2 sont respectivement
et .
Les coûts associés à u1 et u2 sont donnés par les vecteurs
et .
On souhaite minimiser le coût espéré total actualisé sur horizon infini. Le facteur d’actualisation est
a) À partir du vecteur initial exécuter une itération de la méthode d’itération de valeurs.
b) En appliquant la méthode d’itération de politiques à partir de la politique, déterminer la politique optimale µ* et le vecteur de coût espéré optimal J*.
c) Pouvait-on déterminer a priori une borne supérieure sur le nombre d’itérations qui seraient nécessaires pour trouver µ*? Si oui, pourquoi et quelle était cette borne?
Connectez-vous ou Inscrivez-vous pour répondre.