Inégalité pour l'information de Fisher

Bonjour,

Je cherche à justifier une inégalité pour la matrice d'information de Fisher pour des modèles paramétriques (réminiscente de la "data processing inequality").

Soit $\Theta\subseteq\mathbb R^d$ un ensemble ouvert non vide ($d\geq 1$) et soient $\mathcal X,\mathcal Y$ et $\mathcal U$ trois ensembles mesurables quelconques. On considère une famille paramétrique de lois de probabilités $(P_\theta)_{\theta\in\Theta}$ sur $\mathcal X$. Soit $f$ une fonction mesurable de $\mathcal X\times\mathcal U$ dans $\mathcal Y$ et $U$ une variable aléatoire sur $\mathcal U$. Pour tout $\theta\in\Theta$, on pose $Q_\theta$ la loi de $f(X,U)$, où $X$ est une variable aléatoire sur $\mathcal X$ de loi $P_\theta$, définie sur le même espace de probabilité que $U$ et indépendante de $U$. On suppose que la famille $(P_\theta)_{\theta\in\Theta}$ est dominée par une mesure $\sigma$-finie sur $\mathcal X$ et que l'information de Fisher $I_P$ associée à la famille $(P_\theta)_{\theta\in\Theta}$ est bien définie.

Peut-on toujours définir l'information de Fisher associée à la famille paramétrique $(Q_\theta)_{\theta\in\Theta}$ (i.e., la famille est-elle nécessairement dominée par une mesure $\sigma$-finie sur $\mathcal Y$ avec une long-vraisemblance deux fois dérivable en $\theta$) et si oui, en notant $I_Q$ cette information de Fisher, comment justifier que pour tout $\theta\in\Theta$,
$$I_Q(\theta)\preceq I_P(\theta)$$
(au sens des matrices symétriques) ?

PS: supposons $d=1$ pour simplifier, car ce n'est pas le coeur du problème.

Réponses

  • C'est correct, en utilisant l'astuce qui consiste a considerer le nouveau modele
    $P^*_{\theta}(dx,du)=P_{\theta}(dx)\mu(du)$ ou $U\sim \mu(du).$ Calcul quasi evident pour voir que $I_{P^*}=I_P.$ Pour terminer tu utilises le fait que $Q_{\theta}$ est l'image de $P^*_{\theta}$ par $(x,u)\mapsto f(x,u)$ et donc par un resultat classique (*)l a matrice $I_P-I_Q$ est semi definie positive.



    (*) On peut te detailler la demonstration.
  • Merci !

    En revanche, c'est précisément la dernière étape qui me pose problème, le $U$ n'est pas réellement important en effet.
    Comment démontrez-vous la dernière inégalité (et, avant tout, comment montrez-vous que l'information de Fischer pour le nouveau modèle est bien définie)?
  • Soit $P_{\theta}(dx)=e^{\ell_x(\theta)}\nu(dx)$ un modele de Fisher sur $X$ c'est a dire ou l'information $I_P(\theta)=\int_X\ell'_x(\theta)\otimes \ell'_x(\theta )P_{\theta}(dx)$ est bien definie. Soit $f: X\mapsto Y$ tel que l'image $H$ de $\nu$ par $f$ existe. Soit $Q_{\theta} =e^{h_y}(\theta) H(dy)$ l'image de $P_{\theta}$ par $f$. Alors $I_P(\theta)-I_Q(\theta)$ est semi definie positive, plus precisement
    $$I_P-I_Q=\int_{X}(\ell'_x(\theta)-h'_{f(x)}(\theta))\otimes (\ell'_x(\theta)-h'_{f(x)}(\theta))P_{\theta}(dx)\ (*).$$
    En effet, soit $\nu_1(dx,dy)$ et $\tilde{P}_{\theta}(dx,dy)$ les images de $\nu(dx)$ et $P_{\theta}(dx)$ par $x\mapsto (x,f(x))=(x,y).$ Comme $H$ existe on peut desintegrer
    $\nu_1(dx,dy)=H(dy)K(y,dx)$ avec $K(x,Y)=1.$ Donc en desintegrant aussi $\tilde{P}_{\theta}$ on a
    $$\tilde{P}_{\theta}(dx,dy)=H_{\theta}(dy)K_{\theta}(y,dx)=e^{\ell_x(\theta)}H(dy)K(y,dx)\Rightarrow K_{\theta}(y,dx)=e^{\ell_x(\theta)-h_y(\theta)}K(y,dx).$$ Pour $y$ fixe on a $$1=\int_{X}K_{\theta}(y,dx)\Rightarrow 0=\int_{X}(\ell'_x(\theta)-h'_y(\theta))K_{\theta}(y,dx)\Rightarrow h'_y(\theta)=\int_{X}\ell'_x(\theta)K_{\theta}(y,dx)\ (**)$$
    et donc le second membre de (*) s'ecrit
    $$\int_{X}(\ell'_x(\theta)-h'_{y)}(\theta))\otimes (\ell'_x(\theta)-h'_{y)}(\theta))\tilde{P}_{\theta}(dx,dy)=I_P(\theta)+I_Q(\theta)-\int _{X\times Y}[\ell_x'(\theta)\otimes h_{y}'(\theta))+h_{y}'(\theta)\otimes\ell_x'(\theta) ]\tilde{P}_{\theta}(dx,dy)$$ qui est $I_P(\theta)-I_Q(\theta)$ a cause de (**).
  • Bonjour P., et merci beaucoup pour ta réponse !

    Je ne reviens qu'après quelques semaines, mes excuses. Je comprends bien les calculs, mais il me semble que la difficulté principale est de les justifier. Qu'est-ce qui garantit que la fonction $h_y$ est dérivable, et qu'elle admet une matrice de variance covariance (i.e., un moment d'ordre 2) ?

    Autrement dit, la partie sur laquelle je bloque, c'est la justification de l'existence de l'information de Fisher pour le nouveau modèle.

    Merci !
  • Je vais réfléchir. Mais diable si $0<A<B$ et si $B$ existe, $A$ a du mal à ne pas exister a priori. Honnêtement, les démonstrations concernant la dérivabilité des modèles sont toujours très laides et j'ai tendance à mettre la poussière sous le tapis comme tout le monde.
  • Bonjour,

    Au cas où, je me permets de relancer le sujet.
    Merci par avance pour vos idées !

    Victor
Connectez-vous ou Inscrivez-vous pour répondre.