Équation matricielle
Bonjour
Dans le cadre d'un calcul d'optimisation, pour $S_1, \dots, S_{n+1}$ vecteurs de $\R^n$ donnés et $T$ une matrice définie positive de dimension $n\times n$, j'arrive à devoir résoudre en $T$, pour tout $1\leq i,j\leq n$ \[0 = -\frac{1}{2}(T^{-1}S_1)_i (T^{-1}S_1)_j -\frac{1}{2}(T^{-1})_{i,j} +\frac{1}{2}\sum_{l=1}^n(T^{-1}S_{l+1})_i (T^{-1})_{l,j}
\] Je voudrais donc pouvoir exprimer $T$ en fonction des vecteurs $S$...
À part le cas où $T$ est diagonale, je cale un peu... et comme j'ai besoin de ce calcul (qui est censé être classique, mais que je ne trouve dans aucun bouquin) pour continuer la suite de mon investigation (qui concerne la détermination des statistiques exhaustives d'une gaussienne), je me tourne vers vos avis !
Merci d'avance pour toute piste où suggestion !
Dans le cadre d'un calcul d'optimisation, pour $S_1, \dots, S_{n+1}$ vecteurs de $\R^n$ donnés et $T$ une matrice définie positive de dimension $n\times n$, j'arrive à devoir résoudre en $T$, pour tout $1\leq i,j\leq n$ \[0 = -\frac{1}{2}(T^{-1}S_1)_i (T^{-1}S_1)_j -\frac{1}{2}(T^{-1})_{i,j} +\frac{1}{2}\sum_{l=1}^n(T^{-1}S_{l+1})_i (T^{-1})_{l,j}
\] Je voudrais donc pouvoir exprimer $T$ en fonction des vecteurs $S$...
À part le cas où $T$ est diagonale, je cale un peu... et comme j'ai besoin de ce calcul (qui est censé être classique, mais que je ne trouve dans aucun bouquin) pour continuer la suite de mon investigation (qui concerne la détermination des statistiques exhaustives d'une gaussienne), je me tourne vers vos avis !
Merci d'avance pour toute piste où suggestion !
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
mon objectif est de calculer le minimum en $\mu\in \R^n$ et $T$ matrice symétrique positive de la fonction
\[F_s(\mu,T):= -\psi(\mu,T)+\Big\langle s,\phi(\mu,T) \Big\rangle\qquad s \in \R^{n(n+1)}\]
avec (en notant $(A)_j$ la colonne $j$ d'un matrice $A$),
\begin{equation}
\phi(\mu,T):=\left(
\begin{matrix}
T^{-1}\mu \\
-\frac{1}{2} (T^{-1})_1\\
\vdots \\
-\frac{1}{2} (T^{-1})_n
\end{matrix}\right), \qquad
\qquad \psi(\mu,T):=\frac{1}{2}{}^t\mu T^{-1}\mu +\frac{1}{2}\log(|T|) \label{eq:familleexpo}
\end{equation}
Je pose alors $s=(S_1,\dots, S_{n+1})$ avec $S_i\in \R^n$.
Pour calculer le gradient en fonction de $\mu$, si $A$ est une matrice symétrique (on pose dans ce qui suit $A:=T^{-1}$), puisque $
{}^t\mu A \mu =\sum_{i,j}\mu_i a_{i,j} \mu_j$,
\[ \frac{\partial}{\partial\mu_k}{}^t\mu A \mu =\sum_{j\neq k} a_{k,j} \mu_j +\sum_{i\neq k}\mu_i a_{i,k} +2a_{k,k}\mu_k = 2\sum_{i=1}^n \mu_i a_{i,k}\]
De même,
\[ \frac{\partial}{\partial\mu_k}{}^t S_1 A \mu =\sum_{i} (S_1)_i a_{i,k} \]
et la condition $\mathrm{grad}_\mu F_s(\mu,T) =0$ revient à
\[ \sum_{i} (S_1)_i a_{i,k}=\sum_{i=1}^n \mu_i a_{i,k}\]
pour tout $k$, autrement dit,
\[\mu =S_1\]
Ce qui est satisfaisant.
Pour le gradient par rapport à la matrice $T$, j'utilise la différentielle de l'inverse pour déterminer la dérivée par rapport à un composant $t_{i,j}$ et je trouve que
\[\frac{\partial}{\partial t_{i,j}}{}^t\mu T^{-1}\mu = -(T^{-1}\mu)_i (T^{-1}\mu)_j\]
j'utilise aussi le résultat
\[ \frac{\partial}{\partial t_{i,j}}\log(|T|) = (T^{-1})_{i,j}\]
En écrivant alors ($(e_i)$ étant la base canonique de $\R^n$)
\[\Big\langle s,\phi(\mu,T) \Big\rangle = S_1T^{-1}\mu + \frac{1}{2}\sum_{l=1}^n {}^tS_{l+1}T^{-1}e_l\]
et en utilisant la condition de nullité de la dérivée par rapport à chaque composante de $T$, j'arrive à l'expression de mon premier post.
Il aurait peut-être moyen de rester en matriciel?
$$v\mapsto (a\otimes b)(v)=a\langle b,v\rangle.$$ Je pose enfin
$$u=-s_0\otimes s_0+\sum_{\ell=1}^n s_{\ell}\otimes s_{\ell}.$$ Avec ces notations ton equation s'ecrit $x=xux$ et puisque $x$ est definie positive $x^{-1}=u.$ Bref
$$T=-S_0S_0^T+ \sum_{\ell=1}^n S_{\ell} S_{\ell}^T.$$
Pas sur cependant que $u$ soit definie positive!
Il faut que je regarde un peu mieux pour comprendre le mécanisme ; de mon côté, en réécrivant la chose de manière matricielle, je suis finalement parvenu à un truc du même genre :
\[T = -S_1 {}^t S_1 + \sum_{l=1}^n e_l {}^t S_{l+1}\]
où $e_l$ est un élément de la base canonique de $\R^n$; d'où vient cette divergence? (Je me permets de demander , vu que j'ai pas encore tout déchiffré de ta preuve)