Intuition sur les conditionnements

Bonjour à tous
Je suis en train de travailler sur un cours de conditionnement (et de stat bayésienne etc.) et je rencontre souvent une notation perturbante.

Soient $X$ et $Y$ deux v.a. continues et $a$ un réel (dans ma façon de comprendre les choses) il est faux de considérer la probabilité de $X \in A$ sachant $Y=a$, car c'est un événement de mesure nulle, mais pourtant !!! La majorité des profs notent ceci à tort et à travers, et ce dans beaucoup de contextes différents : stat bayésienne, MCMC notamment l'algorithme de Metropolis-Hastings.

Je n'arrive pas à avoir une intuition sur ces écriture (ou ces abus de notation ?). Comment conditionner par rapport à une V.A. continue.

Typiquement, quand on a des processus ponctuels comme un processus de [large]P[/large]oisson non homogène (pour lequel les temps d'attente $T_n$ entre le $n$-eme et le $n+1$-eme événement ne sont pas indépendants) intuitivement je me dis que $T_n$ suivra la loi de $T_1$ mais en "translatant" l'origine du temps du processus au point $T_{n-1}$ (se dire que mon processus vient de commencer maintenant, je ne sais pas si je me suis bien exprimé mais je n'ai pas pu faire mieux ...)
Deuxième cas (celui est un exercice sur lequel j'ai séché longtemps mais sans résultat). Soient $X$ et $Y$ deux processus de [large]P[/large]oisson d'intensités respectives $a$ et $b$, trouver la loi de la variable aléatoire : le nombre de réalisations de $Y$ survenus entre deux réalisations successives de $X$. J'ai essayé de conditionner par rapport $T_1$ (le temps d'attente avant le premier événement de $X$) mais je bloque et je n'ai pas envie de faire n'importe quoi.

Je sais que ma question est un peu floue car portant sur un cours entier, mais si vous avez juste un exemple qui me permets de mieux cerner les choses ce serait suuuper pour moi !

PS. Y aurait-il un équivalent de la formule des proba totale dans le cas des VA continues ? Je sais que la formule des proba totale nécessite de sommer sur un ensemble au plus dénombrable donc ce n'est pas possible de sommer bêtement (intégrer) $P(X \in A \text{ et } Y=t)$ mais que le lemme de Doob donne l’existence d'une fonction mesurable $g$ telle que $P(X \in A \mid Y)=g(Y)$ mais on n'a pas forcément la forme explicite de cette dernière.

Enfin bref ! Je n'arrive pas à "intuiter" :-X . Merci d'avance pour vos réponses :-)

[Siméon Poisson (1781-1840) prend toujours une majuscule. AD]

Réponses

  • Bonjour/bonsoir,

    Personne n'a d'exemple ? 8-) (et désolé pour le [size=x-large]P[/size] de Poisson).
  • Deuxième cas (celui est un exercice sur lequel j'ai séché longtemps mais sans résultat). Soient $X$ et $Y$ deux processus de [large]P[/large]oiss on d'intensités respectives $a$ et $b$, trouver la loi de la variable aléatoire : le nombre de réalisations de $Y$ survenus entre deux réalisations successives de $X$. J'ai essayé de conditionner par rapport $T_1$ (le temps d'attente avant le premier événement de $X$) mais je bloque et je n'ai pas envie de faire n'importe quoi.

    $$
    \begin{align}
    P(N=n)
    & = \int_{0}^{+\infty} P(N=n|T=t) \cdot f_T(t) dt \\
    & = \int_{0}^{+\infty} e^{-bt}\frac{(bt)^n}{n!} \cdot a e^{-at} dt \\
    & = a\frac{b^n}{n!} \cdot \int_{0}^{+\infty} e^{-(a+b)t} \cdot t^n dt \\
    & = a\frac{b^n}{n!} \cdot \frac{n!}{(a+b)^{n+1}} \\
    & = \frac{a}{a+b} \cdot \big(\frac{b}{a+b}\big)^n \\
    \end{align}
    $$
    C'est la loi géométrique qui commence à 0 que l'on note $G'\big(
    \frac{a}{a+b}
    \big)
    $.

    Oui, il y a une formule des probabilités totales, celle que je viens d'écrire.
  • Merci beaucoup, je m'entêtais à appliquer la formule des proba totales sous sa forme de somme des proba des intersections alors qu'en regardant le problème comme étant la somme (intégrale) des proba conditionnelles pondérées par la densité c'était tellement évident ... En tout cas merci.
  • Soient $(F,\sigma_F),(G,\sigma_G)$ deux espaces mesurables. Soit $(\Omega,\mathcal A,P)$ un espace probabilisé. Soient $X:\Omega \to F$ et $Y:\Omega \to G$ deux fonctions mesurables (des "variables aléatoires" comme on dit).
    On note $\mu$ la loi de $X$ et $\nu$ la loi du couple $(X,Y)$ (autrement dit $\mu(M)=P(^{-1}(M))$ et $\nu(N)=P \left( \omega \in \Omega \mid (X(\omega),Y (\omega)) \in N\right ))$ pour tous $M\in \sigma_F$ et $N \in \sigma_F \otimes \sigma_G$).

    On appelle noyau conditionnel de $Y$ par rapport à $X$ toute application de $F$ dans l'ensemble des mesures de probas de $(G,\sigma_G)$ telle que
    1°) pour tout $A\in \sigma_G$, $x \mapsto Q(x)(A)$ est mesurable de $F$ dans $\R$ (muni de sa tribu borélienne)
    2°) pour tout $B\in \sigma_F$ et tout $C\in \sigma_G$, $\nu (B\times C) = \int_{B} Q(x) (C) d \mu_x$.

    Etant donné une application $f:F \times G \to \R$ mesurable (et positive ou $L^1$ pour $\nu$),
    on peut montrer (à coups de convergence monotone, de lemme de classe monotone et de Fubini si le lecteur veut essayer) que si $Q$ est un tel noyau et si on pose pour tout $x \in F$, $g(x) := \int_G f(x, -) dQ(x)( - )$, alors $g$ est mesurable et pour tout $A\in \sigma_F$, $$E(g(X) \mathbf 1_A (X)) = \int_F g(t) \mathbf 1_A(t) d\mu_t = \int_{F \times G} f(x,y)\mathbf 1_{A} (x) d \mu_{x,y} = E(f(X,Y) \mathbf 1_A (X)) \tag{1}$$ autrement dit que $g(X)$ est l'espérance conditionnelle de $f(X,Y)$ par rapport à $X$.
    Il est donc normal de noter "$E(f(X,Y) \mid X = a) := g(a)$" même s'ill n'y a pas unicité de $Q$ en général (seulement le fait que si $Q,Q'$ sont deux noyaux alors pour tout $A\in \sigma_F$, pour presque tout $x$, $Q(x)(A) = Q'(x)(A)$).


    Il existe toujours de tels noyaux lorsque $G$ est un espace polonais et c'est cette construction qui justifie intuitivement l'appellation d' "espérance conditionnelle".
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • Salut
    Alors oui c’est pénible à comprendre parce que les profs de stats et de machine learning ne pigent rien aux probas qu’ils manipulent. J’ai moi-même mis des semaines à comprendre de quoi ils parlaient. Ca semble limpide pour ceux qui s’en foutent de la rigueur des concepts utilisés mais j’ai réussi à me le formaliser de la façon suivante :

    $X$ est un v.a , $Y$ est une v.a , on va supposer pour l’instant que $Y$ a une densité $g$ et que le couple $(X,Y)$ a une densité $\varphi_{X,Y}$.
    Petit calcul :
    \begin{align*}
    \mathbf{P} ( X \in [ z , z + \mathrm{d} z ] \mid Y \in [d, a + \mathrm{d} a ] )
    &= \frac{\mathbf{P}( X \in [ z , z + \mathrm{d} z ] ,e\ Y \in [d, a + \mathrm{d} a ] ) }{ \mathbf{P} (Y \in [d, a + \mathrm{d} a ] ) }\\

    & = \frac{\int_{z}^{z + \mathrm{d} z } \int_{a}^{a + \mathrm{d} a } \varphi( u , t ) \mathrm{d} u \mathrm{d} t } { \int_a^{a + \mathrm{d} a } g(t) \mathrm{d} t } \\

    &\approx

    \frac{ \varphi(z,a) \mathrm{d} a \mathrm{d} z }{ g(a) \mathrm{d} a }
    = \frac{ \varphi(z,a) }{ g(a) } \mathrm{d} z .

    \end{align*} Donc on va DEFINIR la loi conditionnelle de $X \mid Y$ [large]EN POSTULANT la densité suivante[/large].
    La variable aléatoire $Z =_{\mathrm{def} } ( X \mid Y = a ) $ est une variable à densité de densité $f$ :
    $f(x) = \frac{\varphi(z,a) }{ g(a) } ,$ si $g(a) \neq 0, $
    $f(x) = $ n’importe quoi $> 0, $ si $ g(a) = 0 $ du moment que $\int_{\mathbf{R} } f(t) \mathrm{d} t = 1 .$
  • Pas la peine de s'énerver.

    Une densité de $X$, c'est n'importe quelle fonction $f$ telle que $P(X\in B) = \int_{B} f$.

    On peut modifier à notre guise une densité sur un ensemble de mesure nulle. (1)

    Une densité de $X$ connaissant $Y$, c'est n'importe quelle fonction telle que $P(X\in B\mid Y\in A) = E_{Y\in A}[\int_B f_Y]$, tant que $Y\in A$ vient avec probabilité $>0$.

    Après, évidemment, $(f_a)_{a\in A}$ ne connaît aucune contrainte tant que $Y\in A$ est de probabilité nulle, mais ce n'est pas plus scandaleux que (1).
Connectez-vous ou Inscrivez-vous pour répondre.