Espérance conditionnelle

Bonjour !
J'aurais besoin de votre aide car j'ai du mal à comprendre une des propriétés de l'espérance conditionnelle.
Soit ($\omega,F,P$) un espace probabilisé. Soit $G\subseteq F$ une sous-tribu.
Soit $Y$ une variable aléatoire intégrable. Si $Y$ est indépendante de $G$, alors $\mathbb{E}[ Y\vert G ]=\mathbb{E}[Y]$.
Nous l'avons démontré en cours, donc mathématiquement parlant je la comprends, mais j'aimerais comprendre l'intuition qu'il y a derrière.

Pouvez-vous m'aider ?
Merci d'avance !

Réponses

  • Ben ... si Y est indépendante de G, son espérance aussi.

    Cordialement.
  • Je pense que c'est pas le genre d'intuition qu'il cherche. Sûrement plus un truc du genre, puisque $G$ n'apporte aucune info à $Y$, la meilleure estimation de $Y$ dans $G$ c'est son espérance.

    Mais bon ... La meilleure intuition en maths, c'est celle qu'on acquiert par la pratique, la manipulation des objets, les exemples et les contre-exemples.
  • Ahah habile et là je me sens bête..
    Mais c'est juste que j'ai du mal à voir car pour moi, l'espérance conditionnelle de Y sachant G, c'est (grossièrement) le "résumé" de ma variable aléatoire Y si je ne regarde que les évènements qui sont dans G. Mais dans ce cas, pourquoi quand Y est G-mesurable nous n'obtenons pas la même chose i.e $\mathbb{E}[ Y\vert G ]=\mathbb{E}[Y]$ mais $\mathbb{E}[ Y\vert G ]=Y$?
  • Merci pour les deux approches, elle m'aident toutes les deux!
  • Bah quand $Y$ est $G$ mesurable, toute l'info de $Y$ est disponible en passant dans $G$, donc la meilleure estimation de $Y$ dans $G$ c'est $Y$ elle-même, l'espérance serait une bien moins bonne estimation.
  • Oui, c'est ce que je me suis dis deux secondes après avoir posté le message. Mais du coup j'ai une dernière question (promis!) juste pour voir si j'ai bien compris. Dans le cas de l'indépendance, l'espérance conditionnelle de Y sachant G est son espérance car G n'apporte aucune information sur Y, donc comme l'espérance conditionnelle est une variable aléatoire G-mesurable, on ne peut pas dire que la meilleure approximation de Y par rapport à G est Y car on ne sait pas si Y est G-mesurable, on est donc (entre gros guillemets) "contraint" à prendre son espérance, car nous n'avons pas de "meilleure résumé" de Y sur G.. ça vous semble être un raisonnement correct ?
  • Tu poses autant de questions que tu veux, y'a pas de quota ici :-D

    C'est correct, sauf que ... c'est pas un raisonnement ! C'est juste une vague intuition personnelle, ça n'a rien d'une preuve.
  • Pas faux !
    Oui oui bien sûr, comme je t'ai dit j'ai très bien compris la preuve purement mathématique mais j'ai du mal à avoir de l'intuition en proba (ce n'est pas vraiment mon domaine favori) et je n'aime pas apprendre des résultats bêtement sans les comprendre un minimum !
    Merci bcp beaucoup en tout cas !!
  • L'intuition en probas, c'est pas facile ;-)
  • Exerçons notre intuition avec $G=F$.
  • On va considérer un autre espace mesurable $(T,\mathcal A)$
    (NB: en général les gens on tendance à préférer la majuscule $\Omega$ pour noter l'espace ambiant. En latex on a \omega -> $\omega$ et \Omega ->$\Omega $. D'ailleurs c'est ce que je vais faire dans le reste du post sinon je vais m'embrouiller :-D).

    1°) Soit d'abord $X:\Omega \to T$ mesurable quelconque. $\sigma(X)$ désigne la plus petite tribu de $\Omega$ pour laquelle $X$ est mesurable ($T$ étant muni de sa tribu $\mathcal A$)Alors une application $U:\Omega \to \R$ est $\sigma(X)$ mesurable si et seulement si il existe $f:T\to \R$ mesurable telle que $f \circ X=U$. C'est ce résultat qui explique l'intuition derrière l'expression "fonction $\sigma(X)$-mesurable": une telle chose est tout simplement une grandeur qui "s'exprime" en fonction de $X$.

    Preuve:
    (i) Si $U$ ne prend qu'un nombre fini de valeurs, $\{a_1,...,a_n\}$ alors posons $E_i:=U^{-1}(\{a_i\})$. Il existe donc des $F_1,...,F_n\in \mathcal A$ tels que pour tout $i$. $X^{-1}(F_i)=E_i$ et si on pose $f:x\in T \mapsto \sum_{k=1}^n a_k \mathbf{1}_{F_k} (x)$ alors pour tout $t\in \Omega$, $f\circ X (t)=U(t)$ par construction.

    (ii)Si $U$ est à valeurs dans $\R_+ \cup \{+\infty\}$ (resp $[0,+\infty[$.), montrons l'existence de $f:T\to \R_+ \cup \{+\infty\}$ (resp. $[0,+\infty[$) mesurable telle que $f\circ X=U$. SI $n,k\in \N$, soient $I(n,k):= \left[\frac{k}{2^n},\frac{k+1}{2^n} \right[$ et si $x\in \R_+ \cup \{+\infty \}$ $\alpha_n(x):=\max \left( n, \sum_{k=0}^{+\infty} \mathbf{1}_{I(n,k)} (x)\right)$. Alors pour tout $n\in \N$, $\alpha_n$ est à valeurs dans l'ensemble fini $\left \{\frac{k}{2^n}\mid 0\leq k \leq n2^n-1 \right\}$ et pour tout $x\in \R_+ \cup \{+\infty\}$ la suite $n \mapsto \alpha_n(x)$ est croissante et tend vers $x$.
    Comme d'après (i) il existe une suite de fonctions $g_n:T \to \R$ telle que $\alpha_n \circ U= g_n \circ X$ pour tout $n$, si on pose pour tout $x\in T$, $f_n(x):= \max\{0, g_k(x)\mid 0\leq k \leq n\}$, on se retrouve avec une suite croissante de fonctions mesurables dont la limite $f:T\to \R_+ \cup \{+\infty\}$ est telle que $f\circ X =U$.
    Si maintenant $U$ ne prend pas la valeur $+\infty$, soit $S:=\{y\in T \mid f(y)=+\infty\}$. Alors $S\subseteq T$ est mesurable. On pose alors $f'(z):=0$ si $z\in S$ et $f(z)$ si $z\in T\backslash S$ et on vérifie que cela donne bien une fonction mesurable de $T$ dans $\R$ telle que $f\circ X = U$.

    (iii) $U:T\to \R$ mesurable quelconque. Alors $\sup(U,0):=\frac{U+|U|}{2}$ et $\sup(-U,0):=\frac{-U+|-U|}{2}$ sont toutes deux à valeurs dans $[0,+\infty[$ et $U$ est égale à leur différence. On applique alors (ii).


    2°) Si $\mathcal B,\mathcal C$ sont deux tribus de $\Omega$ telles que $\mathcal C \subseteq \mathcal B$ et si $X:\Omega\to \Omega$ est l'identité (i.e. $X(p)=p$ pour tout $p\in \Omega$) alors $X$ est mesurable de $(\Omega,\mathcal B)$ dans $(\Omega,\mathcal C)$ et $\sigma(X)=\mathcal C$ (trivial: il suffit d'expliciter les définitions).
    Ce résultat permet de voir l'espérance conditionnelle (avec $Z:(\Omega,\mathcal B)\to \left(\R,\mathcal B(\R) \right)$) $E(Z|\mathcal C)$ comme un cas particulier de $E(Z|X)=E\left(Z|\sigma(X) \right))$.

    3°) donnons une version de 2°) moins artificielle.
    Soient à nouveau $\mathcal B$ une tribu, $(Q_i)_{i\in I}$ une famille d'éléments de $\mathcal B$. Soit cette fois $\mathcal C$ la tribu engendrée par $\{Q_i \mid i \in I\}$. Soit $\mathfrak P$ le produit $\prod_{i\in I} \{0,1\}$ que l'on munit de la tribu cylindrique (i.e. la plus petite tribu contenant les ensembles de la forme $A(i,k):=\{t\in \mathfrak P\mid t_i=k \}$ quand $i$ parcourt $I$ et $k$ parcourt $\{0,1\}$).
    Il s'avère que $\mathcal C$ est la plus petite tribu rendant mesurable l'application $X:a \in \Omega\mapsto \left(\mathbf 1_{Q_i}(a) \right)_{i \in I} $ (à nouveau exo trivial qui est un jeu d'écriture).
    Donc en fait les $Q_i$ (les $\mathbf 1_{Q_i}$) sont des "questions" et lorsque $U:\Omega\to \R$ est une variable aléatoire, et $\xi$ un élément "inconnu" dans $\Omega$, $E(U|\mathcal C) (\xi)$ est la meilleure approximation (par ex au sens des moindres carrés, cf la description de $E(\cdot | \mathcal C)$ comme opérateur de projection dans $L^2$) que l'on puisse donner de $U$ quand la seule chose qu'on sache de $\xi$ est la liste des réponses aux questions $Q_i$, liste qui est $X(\xi)=\left(\mathbf 1_{Q_i}(\xi) \right)_{i \in I} $. Cette approximation s'écrit en fonction de $X(\xi)$ d'après 1°).
    C'est aussi pour cela qu'on dit souvent que $\mathcal C$ représente une information et $E(Z|\mathcal C)$ est l'espérance conditionnelle de $Z$ "sachant" $\mathcal C$

    4°) Revenons au sujet du fil, soient $(\Omega,\mathcal B,P)$ un espace probabilisé,$(T_i,\mathcal A_i)_{i=1,2}$ deux espaces mesurables et $X_1:(\Omega ,F)\to (T_1,\mathcal A_1)$ et $X_2:(\Omega ,F)\to (T_2,\mathcal A_2)$ deux variables aléatoires indépendantes .

    On pose $\mathcal G:= \sigma(X_1)$ et $\mathcal F:=\sigma (X_1,X_2)$ (i.e. la plus petite tribu rendant mesurable $X_1$ et $X_2$, ce qui est exactement la même chose que $\sigma(Z)$ où $Z=\xi \in \Omega \mapsto \left(X_1(\xi), X_2(\xi)\right) \in T_1\times T_2$).

    4.1°) pour toute $f:T_1\times T_2\to \R$ bornée (ou positive), si pour tous $p\in T_1$, $g(p)$ désigne $E\big(f(p,X_2) \big)$ alors on a presque sûrement $E\big(f(X_1,X_2) \mid X_1 \big)= g(X_1)$. (c'est un résultat classique trouvable dans tous les bons cours de probas. Pour le prouver on commence par traiter le cas où $f$ est de la forme $(t_1,t_2) \mapsto g(t_1)h(t_2)$ avec $g:T_1\to \R$ et $h:T_2\to \R$ mesurables et bornées et on conclut avec un lemme de classe monotone adéquat).

    Alors une variable aléatoire $Y:(\Omega,\mathcal B) \to \R$ est indépendante de $\mathcal G$ si et seulement si elle est indépendante de $X_1$.
    Dans le cas particulier abordé en 4.1°) $X:=X_1$ et $Y:=f(X_1,X_2)$ sont indépendantes si et seulement s'il existe $V\subseteq T_1$ mesurable tel que $P(X_1\in V)=1$ et pour tous $s,t\in A$, les lois de $f(s,X_2)$ et $f(t,X_2)$ sont identiques (i.e. vous avez beau savoir qui est $X_1$, le même aléa règne sur $f(X_1,X_2)$) (exo avec Fubini).

    5°) Les noyaux conditionnels et la désintégration apportent un éclairage intéressant (je sais que je suis lourd avec ça, et l'inconvénient est aussi que la construction de tels objets est non triviale) Bon c'est pour un autre jour.
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • Indication en blanc pour l'exo que j'ai mis en bas de la page de mon long post (là je pense que c'est un peu sec):

    Soit $\mu:M\in \mathcal A_1 \mapsto P(X_1 \in M)$ la loi de $X_1$.
    Soit $a\in \R$
    Etudier, pour tout $h:T_1\to \R$ bornée mesurable, $\int_{w\in T_1} \left [E\left (e^{-iaf(w,X_2)} h(w)\right)\right]d\mu_w$ et utiliser un argument de fonctions caractéristiques.
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
Connectez-vous ou Inscrivez-vous pour répondre.