Égalité sur le Hessien de la "Likelihood"

1) Initialement, je voulais démontrer la relation ci-dessous qui concerne la fonction de vraisemblance $\mathcal{L}$ : $$

E\Big[\frac{\partial \mathcal{L}}{\partial \theta} \frac{\partial \mathcal{L}^{\prime}}{\partial \theta}\Big]=E\Big[\frac{-\partial^{2} \mathcal{L}}{\partial \theta \partial \theta^{\prime}}\Big].

$$ Une démonstration m'a été donnée en prenant $\mathcal{L}=\log p$ où $p$ est une fonction de densité. Voici la démo.

Par définition, on a $\mathcal{L}=\log p$, avec la règle de la chaîne : $\frac{\partial \mathcal{L}}{\partial \theta_i} =\frac{1}{p} \frac{\partial p}{\partial \theta_i} $, et donc : $$

\frac{\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}=\frac{\partial}{\partial \theta_j} \left(\frac{1}{p} \frac{\partial p}{\partial \theta_i} \right)=-\frac{1}{p^2} \frac{\partial p}{\partial \theta_j}\frac{\partial p}{\partial \theta_i}+\frac{1}{p}
\frac{\partial^{2} p}{\partial \theta_i \partial \theta_j}=-\frac{\partial \mathcal{L}}{\partial \theta_i} \frac{\partial \mathcal{L}}{\partial \theta_j} + \frac{1}{p}
\frac{\partial^{2} p}{\partial \theta_i \partial \theta_j}.

$$ Maintenant, nous prenons la valeur moyenne pour chaque coté, c'est-à-dire que l'on multiplie par $p$ des 2 cotés et l'on intègre; nous avons ce que nous voulons excepté la présence d'un autre terme : $$

\int \frac{1}{p}
\frac{\partial^{2} p}{\partial \theta_i \partial \theta_j} p dX=\int \frac{\partial^{2} p}{\partial \theta_i \partial \theta_j}dX .

$$ Pourtant, $\int p dX=1$ car $p$ est une PDF.
Donc, sous certaines conditions de régularité, l'intégrale $\int \frac{\partial p}{\partial \theta_i }dX=0 $ et $\int \frac{\partial^{2} p}{\partial \theta_i \partial \theta_j}dX =0$, donc le terme en + s'annule et nous concluons.

2) Désormais, je voudrais retrouver cette relation mais en prenant la forme générale de la likelihood comme le produit de fonction PDF prises à des valeurs d'observables (données expérimentales) comme ceci.
Si je prends le $\log$ de la likelihood $\mathcal{L}$ sous la forme $\mathcal{L} = \log\big(\prod_{i}\,f(x_{i})\big)$ avec $x_{i}$ toutes les données expérimentales, j'ai des difficultés à prouver la même relation de 1).

J'ai : $\dfrac{\partial \mathcal{L}}{\partial \theta_{i}} = \dfrac{\partial \log\big(\prod_{k}\,f(x_{k})\big)}{\partial \theta_{i}} = \dfrac{\big(\partial \sum_{k}\,\log\,f(x_{k})\big)}{\partial \theta_{i}}
=\sum_{k}\,\dfrac{1}{f(x_{k})}\,\dfrac{\partial f(x_{k})}{\partial \theta_{i}}.$
Maintenant, je dois calculer :
\begin{align*}
\dfrac{\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}&=\dfrac{\partial}{\partial \theta_j} \Big(\sum_{k}\,\dfrac{1}{f(x_{k})}\,\dfrac{\partial f(x_{k})}{\partial \theta_{i}} \Big) \\
&= -\sum_{k} \big(\dfrac{1}{f(x_{k})^2} \dfrac{\partial f(x_{k})}{\partial \theta_{j}}\dfrac{\partial f(x_{k})}{\partial \theta_{i}}+\dfrac{1}{f(x_{k})}\,\dfrac{\partial^{2} f(x_{k})}{ \partial \theta_i \partial \theta_j}\big) \\
&=-\sum_{k}\big(\dfrac{\partial \log(f(x_{k}))}{\partial \theta_{i}}\,
\dfrac{\partial \log(f(x_{k}))}{\partial \theta_{j}}+
\dfrac{1}{f(x_{k})}
\dfrac{\partial^{2} f(x_{k})}{\partial \theta_{i} \partial \theta_{j}}\big)

\end{align*} De la même manière qu'en 1), sous certaines conditions de régularité, j'obtiens :

$-\sum_{k}\big(\dfrac{\partial \log(f(x_{k})}{\partial \theta_{i}}\,
\dfrac{\partial \log(f(x_{k})}{\partial \theta_{j}}\big)\quad\quad(1)$

Mais je ne sais pas conclure car je n'arrive pas à faire apparaître le produit des 2 dérivées de $\mathcal{L}$, c'est-à-dire l'égalité trouvée en 1) :

$\dfrac{\partial \log\big(\prod_{k}\,f(x_{k})\big)}{\partial \theta_{i}}\,\dfrac{\partial \log\big(\prod_{k}\,f(x_{k})\big)}{\partial \theta_{j}}=\sum_{k}\sum_{l}\big(\dfrac{\partial \log(f(x_{k})}{\partial \theta_{i}}\,
\dfrac{\partial \log(f(x_{l})}{\partial \theta_{j}}\big)
=\dfrac{\partial \mathcal{L}}{\partial \theta_i} \dfrac{\partial \mathcal{L}}{\partial \theta_j}\quad\quad(2)$
Toute aide serait la bienvenue.

Mise à jour : je pense que le point clé se situe quand j'écris : $$

\dfrac{\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}=\dfrac{\partial}{\partial \theta_j} \Big(\sum_{k}\,\dfrac{1}{f(x_{k})}\,\dfrac{\partial f(x_{k})}{\partial \theta_{i}} \Big)
= -\sum_{k} \big(\dfrac{1}{f(x_{k})^2} \dfrac{\partial f(x_{k})}{\partial \theta_{i}}\,\dfrac{\partial f(x_{k})}{\partial \theta_{j}}+\dfrac{1}{f(x_{k})}\,\dfrac{\partial^{2} f(x_{k})}{\partial \theta_i \partial \theta_j}\big).

$$ En effet, je permute $\sum_{k}$ avec $\dfrac{\partial}{\partial \theta_{j}}$ mais je n'arrive pas à faire apparaître la sommation sur $l$, c'est-à-dire $\sum_{l}$.
Ça sera certainement évident pour certains d'entre vous mais où est mon erreur ? Si quelque chose n'est pas clair, n'hésitez pas à me le signaler.
Cordialement

Réponses

  • Vraiment personne pour un peu d'aide ?

    Peut-être devrais-je déplacer cette question dans le forum Proba ou Analyse ? Qu'en pensez-vous ?

    Cordialement
  • On veut $E[\partial^2 L(X)] + E[(\partial L)^2(X)] = 0$, avec $L =\ln \circ f$, et $X$ de densité $f$, c'est ça ?
    J'ai noté $\partial$ pour $\frac{\partial}{\partial \theta}$.

    On a : $1 = \int f$
    On dérive : $0 = \int \partial f = \int \partial L \cdot f = E[\partial L(X)]$.
    On dérive une deuxième fois : $0 = \int \partial^2 f = \int \frac{\partial^2 f}{f} \cdot f$.

    Or $f = \exp \circ L$, donc $\partial^2 f = \big[\partial^2 L + (\partial L)^2 \big] \cdot f$.

    Il reste bien $0 = \int [\partial^2 L + (\partial L)^2] \cdot f = E[\partial^2 L(X)] + E[(\partial L)^2(X)] = 0$.

    Un autre point de vue c'est que $E[g(X)] = \int g(x) f(x)$.
    On dérive : $\partial(E[g(X)]) =
    \int \partial g(x) f(x)
    +
    \int g(x) \frac{\partial f(x)}{f} f
    =
    E[\partial g(X)] +
    E[g(X) \cdot \partial L(X)]
    $.
    À la deuxième fois dérivation :
    $
    \begin{aligned}
    \partial^2(E[g(X)])
    & =
    E[\partial^2 g(X)] +
    E[\partial g(X) \cdot \partial L(X)]
    +
    E[\partial (g(X) \cdot \partial L(X))]
    +
    E[g(X) \cdot (\partial L(X))^2] \\
    & =
    E[\partial^2 g(X)] +
    2 \cdot E[\partial g(X) \cdot \partial L(X)]
    +
    E[g(X) \cdot \partial^2 L(X))]
    +
    E[g(X) \cdot (\partial L(X))^2]
    \end{aligned}
    $.
    Et donc pour $g\equiv 1$, on trouve la formule demandée.
  • Bonjour,
    en fait que je crois que ta démonstration est celle qui a été déjà faite pour mon cas 1).

    Désormais, j'aimerais pouvoir démontrer l’égalité suivante : $$

    E\bigg[\frac{\partial \mathcal{L}}{\partial \theta_i} \frac{\partial \mathcal{L}}{\partial \theta_j}\bigg]=E\bigg[\frac{-\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}\bigg],\quad\quad(1)

    $$ mais avec la définition générale du logarithme de la lilkelihood $\mathcal{L}$ (ou appelée fonction de vraisemblance), c'est-à-dire le produit des PDF (fonctions de densité de probabilités) pour chaque valeur expérimentale notée $x_{k}$. Sa forme générale est donc (si je prends en + le log de ce produit) : $$

    \mathcal{L} = \log\big(\prod_{k}\,f(x_{k})\big).

    $$ Ma tentative de démo m'a amené à obtenir pour la dérivée seconde de $\mathcal{L}$ la relation suivante : $$

    \begin{align*}

    \dfrac{\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}&=\dfrac{\partial}{\partial \theta_j} \Big(\sum_{k}\,\dfrac{1}{f(x_{k})}\,\dfrac{\partial f(x_{k})}{\partial \theta_{i}} \Big) \\

    &= -\sum_{k} \big(\dfrac{1}{f(x_{k})^2} \dfrac{\partial f(x_{k})}{\partial \theta_{j}}\dfrac{\partial f(x_{k})}{\partial \theta_{i}}+\dfrac{1}{f(x_{k})}\,\dfrac{\partial^{2} f(x_{k})}{ \partial \theta_i \partial \theta_j}\big) \\

    &=-\sum_{k}\big(\dfrac{\partial \log(f(x_{k}))}{\partial \theta_{i}}\,

    \dfrac{\partial \log(f(x_{k}))}{\partial \theta_{j}}+

    \dfrac{1}{f(x_{k})}

    \dfrac{\partial^{2} f(x_{k})}{\partial \theta_{i} \partial \theta_{j}}\big).

    \end{align*}

    $$ Comme je raisonne en terme de valeur moyenne, le second terme de la somme, c'est-à-dire $\dfrac{1}{f(x_{k})}\dfrac{\partial^{2} f(x_{k})}{\partial \theta_{i} \partial \theta_{j}}$ s'annule sous certaines conditions de régularités.

    Mais maintenant, comme vous pouvez le voir dans la relation $(1)$, je n'arrive pas à faire apparaître l'espérance du produit des 2 dérivées de $\mathcal{L}$, c'est-à-dire : $$

    \big<\sum_{k}\sum_{l}\big(\dfrac{\partial \log(f(x_{k})}{\partial \theta_{i}}\,

    \dfrac{\partial \log(f(x_{l})}{\partial \theta_{j}}\big)\big>

    =\big<\dfrac{\partial \mathcal{L}}{\partial \theta_i} \dfrac{\partial \mathcal{L}}{\partial \theta_j}\big>.\quad\quad(2)

    $$ Il faudrait que je retrouve le produit $\big<\dfrac{\partial \mathcal{L}}{\partial \theta_i} \dfrac{\partial \mathcal{L}}{\partial \theta_j}\big>$ à partir de mon calcul de la dérivée seconde pour prouver l'égalité $(1)$.

    Je sais que si je multiplie par exemple $\dfrac{\partial \log(f)}{\partial \theta}$ par $f(\theta)$, je fais apparaître le terme $\dfrac{\partial f}{\partial \theta}$ mais j'ai un peu + de mal à conclure avec des fonctions discrétisées et des sommes. (La likelihood est-elle une fonction ? a priori non car je prends en compte des valeurs "expérimentales". D'après moi, c'est les valeurs que prend la PDF aux points $x_{k}$).

    Je me mélange un peu les pinceaux, si quelqu'un pouvait voir là où ça cloche ...
    Cordialement.
  • Ah ok, je n'avais pas compris quelle était la question.

    $\def\d#1{\frac{\partial}{\partial #1}}$
    Je reprends la même formule : $\d\theta_i
    \big(
    E[g(X)]
    \big) =
    E\big[\d\theta_i g(X)\big]
    +
    E\big[g(X) \cdot \d\theta_i L(X)\big]
    $

    et la même bien sûr avec $\theta_j$.

    On a $1 = E[1]$,
    On dérive par rapport à $\theta_i$. Il vient : $0 = E\big[\d\theta_i L(X)\big]$.
    On dérive une deuxième fois, cette fois par rapport à $\theta_j$.
    On obtient : $0 =
    E\big[\d{\theta_j}\d\theta_j L(X)\big] +
    E\big[\d\theta_i L(X) \cdot \d{\theta_j} L(X)\big]$.
  • Au risque d'être un peu lourd (les jeunes disent "relou", n'est-ce pas), j'aimerais pouvoir reformuler la démo ci-dessus donnée par @marsup mais avec mes notations et notamment l'utilisation des expressions faisant apparaitre les produits des PDF (fonction de vraisemblance). Je me suis aperçu qu'il y avait des p'tites erreurs dans mes expressions ("p'tite erreur" implique erreur tout court en maths).

    Donc j'essaie de reprendre le calcul.

    1) But : démontrer l'expression suivante :

    $$E\bigg[\frac{\partial \mathcal{L}}{\partial \theta_i} \frac{\partial \mathcal{L}}{\partial \theta_j}\bigg]=E\bigg[\frac{-\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}\bigg],\quad\quad(1)$$

    avec le log de la fonction de vraisemblance : $$\mathcal{L} = \log\big(\prod_{k}\,f(x_{k})\big).$$

    d'ailleurs au passage, dans la littérature, on dit plutôt "log de la fonction de vraisemblance" ou "fonction de vraisemblance" seulement ?

    2) Je rectifie le signe "-" devant l'expression de la derivée seconde de $\mathcal{L}$ :

    $$\begin{align*}



    \dfrac{\partial^{2} \mathcal{L}}{\partial \theta_i \partial \theta_j}&=\dfrac{\partial}{\partial \theta_j} \Big(\sum_{k}\,\dfrac{1}{f(x_{k})}\dfrac{\partial f(x_{k})}{\partial \theta_{i}} \Big) \\



    &= \sum_{k} \big(-\dfrac{1}{f(x_{k})^2} \dfrac{\partial f(x_{k})}{\partial \theta_{j}}\dfrac{\partial f(x_{k})}{\partial \theta_{i}}+\dfrac{1}{f(x_{k})}\dfrac{\partial^{2} f(x_{k})}{ \partial \theta_i \partial \theta_j}\big) \\



    &=\sum_{k}\big(-\dfrac{\partial \log(f(x_{k}))}{\partial \theta_{i}}\,



    \dfrac{\partial \log(f(x_{k}))}{\partial \theta_{j}}+



    \dfrac{1}{f(x_{k})}



    \dfrac{\partial^{2} f(x_{k})}{\partial \theta_{i} \partial \theta_{j}}\big).



    \end{align*}$$

    Comme je dois calculer des espérances de chaque coté, le deuxième terme de la somme sur $k$ s'annule car :

    $$E\Big[\frac{-\partial^{2} \mathcal{L}}{\partial \theta \partial \theta^{\prime}}\Big]=\int\sum_{k} f(x_k)\bigg(\dfrac{\partial \log(f(x_{k})}{\partial \theta_{i}},
    \dfrac{\partial \log(f(x_{k})}{\partial \theta_{j}}+\dfrac{1}{f(x_{k})}\dfrac{\partial^{2} f(x_{k})}{\partial \theta_{i} \partial \theta_{j}}\bigg)\text{d}x_k\quad\quad(2)$$

    3) Mais je réalise que cette dernière expression $(2)$ n'est pas correcte. En effet, si je veux calculer l'espérance, je dois intégrer, non pas sur les points expérimentaux $x_k$, mais sur les paramètres $(\theta_i, \theta_j)$ en utilisant la distribution jointe $(f(x_k) = f(x_k, \theta_i, \theta_j)$. Si je considère ces paramètres indépendants, je pourrais écrire :

    $$f(x_k, \theta_i, \theta_j)= f_1(x_k, \theta_i)\, f_2(x_k, \theta_j)$$

    Ce qui donnerait :

    $$E\Big[\frac{-\partial^{2} \mathcal{L}}{\partial \theta \partial \theta^{\prime}}\Big]=\int\int \sum_{k} f(x_k,\theta_i,\theta_j)\bigg(\dfrac{\partial \log(f(x_{k})}{\partial \theta_{i}}
    \dfrac{\partial \log(f(x_{k})}{\partial \theta_{j}}\bigg)\text{d}\theta_i \text{d}\theta_j\quad(3)$$

    $$=\int\int f_1(x_k,\theta_i)\quad f_2(x_l,\theta_j) \bigg(\dfrac{\partial \sum_{k} \log(f(x_{k})}{\partial \theta_{i}}
    \dfrac{\partial \sum_l \log(f(x_{l})}{\partial \theta_{j}}\bigg)\text{d}\theta_i \text{d}\theta_j\quad(4)$$

    $$= \int\int \sum_{k}\sum_{l}f(x_k)\bigg(\dfrac{\partial \log(f(x_{k})}{\partial \theta_{i}}\bigg)\text{d}\theta_i \bigg(\dfrac{\partial \log(f(x_{l})}{\partial \theta_{j}}\bigg)\text{d}\theta_j$$

    $$= \int \int f(x_k, \theta_i, \theta_j) \bigg(\dfrac{\partial \log(\Pi_k f(x_{k})}{\partial \theta_{i}}\bigg)\text{d}\theta_i \bigg(\dfrac{\partial \log(\Pi_l f(x_{l})}{\partial \theta_{j}}\bigg)\text{d}\theta_j$$

    et donc :

    $$=E\Big[\dfrac{\partial \mathcal{L}}{\partial \theta_i} \dfrac{\partial \mathcal{L}}{\partial \theta_j}\Big]$$

    Mais j'ai des difficultés pour comprendre le passage dans l'expression $(4)$ faisant apparaitre les 2 sommes : $\Sigma_k$ et $\Sigma_l$ et que j'introduis sans justification par rapport au seul $\Sigma_k$ de l'expression $(3)$ juste avant.

    Si quelqu'un pouvait voir ce qui ne va pas dans ma tentative de démo, ça serait sympa de me l'indiquer.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.