Maximum de vraisemblance

Bonjour
En leçon de maximum de vraisemblance, en statistique, pourquoi cherche-t-on à calculer les valeurs des paramètres $ \theta $ maximisant la fonction de vraisemblance ? A quoi [cela] sert-il ça ?
Merci d'avance.

Réponses

  • Hello ! Étrange de te voir t’intéresser aux statistiques.

    Tu as compris déjà avant d'expliquer ce qu'est le maximum de vraisemblance la problématique et le but recherché ?
  • Salut noobey,

    Cette notion de maximum de vraisemblance, ... je l'ai apprise à plusieurs reprises dans ma vie, mais à chaque fois que j'apprends ou je réapprends cette notion, je finis par l'oublier après un mois à l'avoir vue. Je ne sais pas pourquoi. Peux être, parce que, jusqu'à maintenant, je ne suis pas encore parvenu à avoir une vue globale qui me permet de saisir toutes les subtilités et connexions entre différentes notions en statistique.

    Bref, non, je n'ai pas compris la problématique derrière cette notion, ni son but déjà. J'ai compris bien sûr les définitions et tout le bagage, mais je n'arrive pas à connecter entre les différents éléments de ce bagage, et les assembler.
  • Bonjour,

    Un exemple que je trouve très simple est celui-ci:
    imaginons qu'on observe la réalisation d'une variable aléatoire $X$, qui est supposée suivre une loi normale de moyenne $\theta$ inconnue et de variance $1$. Un estimateur naturel de $\theta$ est alors $X$, et la raison est la suivante: parmi toutes les densités des lois Gaussiennes de moyenne $t\in\R$ et de variance $1$, on choisit celle dont la valeur en $X$ est maximale: elle correspond à $t=\theta$.

    De manière plus générale, si vous savez que $X_1,\ldots,X_n$ sont des variables i.i.d. suivant une certaine loi $P_\theta$, admettant une densité $f_\theta$ par-rapport à une mesure fixée, où $\theta$ est un paramètre inconnu, alors la loi jointe des données admet la densité $(x_1,\ldots,x_n)\mapsto f_\theta(x_1)\ldots f_{\theta}(x_n)$. Puisqu'on ne connaît pas $\theta$, ce qu'on commence par se dire est que la réalisation qu'on observe de cette loi jointe, i.e., $(X_1,\ldots,X_n)$, doit être une réalisation très probable de cette loi jointe, c'est à dire qu'on s'attend à ce que la valeur de $f_\theta(X_1)\ldots f_{\theta}(X_n)$ soit élevée. On choisit alors, comme estimateur de $\theta$, une valeur de $t$ qui maximise le produit $f_t(X_1)\ldots f_{t}(X_n)$.


    Une autre manière de comprendre l'estimateur du maximum de vraisemblance est via la divergence de Kullback-Leibler. Etant données deux probabilités $P$ et $Q$ sur un espace mesurable $E$, si $P$ est absolument continue par-rapport à $Q$, on définit:
    $${KL}(P,Q)=\int_E \log\left(\frac{dP}{dQ}(x)\right)dP(x),$$
    appelée la divergence de Kullback-Leibler entre $P$ et $Q$. Si $P$ n'est pas absolument continue par-rapport à $Q$, on peut définir ${KL}(P,Q)=\infty$.

    On remarque alors (en conséquence de l'inégalité de Jensen) que ${KL}(P,Q)$ est toujours positive, avec ${KL}(P,Q)=0 \iff P=Q$. Ainsi, la divergence de Kullback-Leibler est presque une distance entre les mesures de probabilités sur $E$ (à ça près qu'elle peut prendre la valeur $\infty$ et qu'elle n'est pas symétrique.

    A présent, si on sait que les données $X_1,\ldots,X_n$ suivent la loi $P_\theta$, où $\theta$ est un paramètre dans un espace $\Theta$ (généralement, un ouvert de $\mathbb R^d$, où $d\geq 1$), et si $t\in\Theta \mapsto P_t$ est injective, alors on sait d'après ce qui précède que ${KL}(P_\theta,P_t)$ est minimisée en $t=\theta$. Supposons que pour tout $t\in\Theta$, $P_t$ admet une densité $f_t$ par-rapport à une mesure de référence $\mu$ sur $E$, et (pour simplifier l'explication) que $f_t$ est strictement positive sur $E$. Alors, pour tout $t\in\Theta$,
    $$KL(P_\theta,P_t) = \int_E \log(f_\theta (x)) dP_\theta(x) - \int_E \log(f_t (x)) dP_\theta(x),$$
    autrement dit, $t=\theta$ est le maximiseur de $\int_E \log(f_t (x)) dP_\theta(x)$. Puisqu'on sait que $X_1,\ldots,X_n$ suit la loi $P_{\theta}$, on peut estimer cette dernière quantité par
    $$\frac{1}{n}\sum_{i=1}^n \log f_t(X_i)$$
    et il est naturel, pour estimer $\theta$, de maximiser cette dernière expression en $t\in\Theta$. C'est exactement ce que fait l'estimateur du maximum de vraisemblance.
  • Merci Victor.
    Je comprends un peu.
    Merci.
    Peux tu me dire, pourquoi $ t = \theta $ est le maximiseur de $ \displaystyle \int_E \log(f_t (x)) dP_\theta(x)$ ?
    Merci d'avance.
  • Bonjour,

    Car $t=\theta$ est le minimiseur de
    $$KL(P_\theta,P_t) = \int_E \log(f_\theta (x)) dP_\theta(x) - \int_E \log(f_t (x))dP_\theta(x)$$
    puisque, comme vu plus haut, cette quantité est toujours positive et elle vaut zéro si et seulement si $P_t=P\theta$, i.e., si et seulement $t=\theta$ (puisqu'on a supposé l'injectivité de $t\mapsto P_t$).

    Maintenant, le premier terme du membre de droite ne dépend pas de $t$, donc $t=\theta$ est l'unique maximiseur du second terme.
  • Bonjour

    La taille l'estimateur de maximum de vraisemblance n'est pas toujours très performant pour offrir des informations sur l'expérience statistique. Il peut être biaisé et non admissible comme par exemple l'EMV $X_{(n)}$ du modèle $\left( \mathcal{U}([0;\theta]) \right)_{\theta >0}$. Toutefois pour de grands échantillons il devient très performant dans le sens où il est asymptotiquement gaussien et efficace.
Connectez-vous ou Inscrivez-vous pour répondre.