Les-Mathematiques.net - Cours de mathématiques universitaires - Forum - Cours à télécharger

A lire
Deug/Prépa
Licence
Agrégation
A télécharger
Télécharger
168 personne(s) sur le site en ce moment
E. Cartan

Les maths pour l'agreg

A lire
Articles
Math/Infos
Récréation
A télécharger
Télécharger
Théorème de Cantor-Bernstein
Théo. Sylow
Théo. Ascoli
Théo. Baire
Loi forte grd nbre
Nains magiques
 
 
 
 
 
Espérance next up previous index
suivant: Somme de variables aléatoires monter: Variables aléatoires précédent: Variables aléatoires indépendantes   Index

Sous-sections

Espérance

$ \boxcircle$ Définitions

Définition [Espérance d'une variable aléatoire dans $ L^1$] Etant donnée $ X$ une variable aléatoire de $ L^1(X,\mathbb{R})$, on définit son espérance par

$\displaystyle E(X)=\int_\Omega X.dP$

Cette définition peut éventuellement être étendue aux variables aléatoires intégrables positives.
On définit en outre $ E(X;F)$, avec $ X$ une variable aléatoire $ {\cal L}^1$ ou bien une variable aléatoire intégrable positive, et $ F$ une partie mesurable, par

$\displaystyle E(X;F) = \int_F X.d\mu = E(X.\chi_F)$

avec $ \chi_F$ la fonction caractéristique de $ F$.

$ \boxcircle$ Théorèmes et inégalités

Théorème [Théorèmes de passage à la limite en probabilités] Soit $ X_n$ une suite de variables aléatoires et $ X$ une variable aléatoire telles que

$\displaystyle P(X_n \to X) = 1 $

c'est à dire

$\displaystyle P(\{{\omega}/ X_n({\omega}) \to X({\omega}) \})=1$

Alors les résultats de convergence monotone, de Fatou, de convergence dominée et de Scheffé, que l'on peut trouver dans la partie[*], se reformulent comme suit:
$ \bullet\ $Convergence monotone:
Si les $ X_n$ sont $ \geq 0$ et $ X_n({\omega})$ croit vers $ X({\omega})$ pour $ n \to +\infty$, alors $ E(X_n) \to E(X)$.
$ \bullet\ $Lemme de Fatou:
Si $ X_n \geq 0$ alors $ E(X) \leq liminf\ E(X_n)$
$ \bullet\ $Théorème de convergence dominée de Lebesgue:
Si pour tout $ n$ et tout $ {\omega}$ on a $ \vert X_n({\omega})\vert \leq \vert Y({\omega})\vert$, avec $ E(Y) \leq + \infty$, alors $ E(\vert X_n-X\vert) \to 0$, et en particulier $ E(X_n) \to E(X)$.
$ \bullet\ $Lemme de Scheffé:
Si $ E(\vert X_n\vert)\to E(\vert X\vert)$, alors $ E(\vert X_n-X\vert) \to 0$.

Démonstration: Voir le chapître[*] pour les preuves correspondantes, qui s'appliquent directement.$ \sqcap$$ \sqcup$

Théorème [Inégalité de Markov] Supposons $ X$ variable aléatoire , et $ f$ mesurable de $ \mathbb{R}$ dans $ [0,+\infty]$, avec $ f$ croissante. Alors

$\displaystyle E(f \circ X) \geq E(f \circ X ; X \geq c) \geq f(c).\int \chi_{\{{\omega}/ X({\omega}) \geq c\}}$

que l'on peut aussi noter

$\displaystyle E(f \circ X) \geq E(f \circ X ; X \geq c) \geq f(c).P(X\geq c)$


Démonstration: Il n'y a rien à prouver, il suffit de bien voir que $ f$ est positive.$ \sqcap$$ \sqcup$

Corollaire Avec $ X$ une variable aléatoire positive,

$\displaystyle E(X) \geq c.P(X\geq c)$


Démonstration: C'est l'inégalité de Markov avec $ f$ la fonction identité.$ \sqcap$$ \sqcup$

Corollaire Pour $ X$ variable aléatoire positive, $ P(X \geq z) \leq E(X)/z$.

Démonstration: Il s'agit simplement de l'inégalité ci-dessus, reformulée.$ \sqcap$$ \sqcup$

Théorème [Inégalité de Jensen] On se donne $ f$ une application de $ U$ dans $ \mathbb{R}$, avec $ U$ intervalle ouvert de $ \mathbb{R}$, et $ X$ une variable aléatoire, avec les hypothèses suivantes:

$\displaystyle f$    convexe

$\displaystyle P( X \in U )=1 $

$\displaystyle E(\vert X\vert)<+\infty$    (c'est à dire que $ X$ est intégrable)

$\displaystyle E(\vert f(X)\vert)<+\infty$    (c'est à dire que $ f\circ X$ est intégrable)

Alors :

$\displaystyle E(f(X)) \geq f(E(X)) $


Application(s)... Voir par exemple les propriétés des fonctions caractéristiques en probabilités, [*].

Démonstration: $ \bullet\ $Les dérivées à gauche et à droite de $ f$, notée $ d^-$ et $ d^+$, existent et sont croissantes; on a en outre $ d^-(x)\leq d^+(x)$.
$ \bullet\ $Considérons maintenant $ z \in U$, et $ x \in U$.
Soit $ x<u<z$, alors la pente entre $ x$ et $ u$ est inférieure à la pente entre $ u$ et $ z$; en faisant tendre $ u$ vers $ z$ on constate alors que la pente entre $ x$ et $ z$ est inférieure à $ d^-(z)$. Donc:

$\displaystyle f(x) \geq f(z)+d^-(z)(x-z)$

De même pour $ x>z$ on montrerait

$\displaystyle f(x) \geq f(z)+d^+(z)(x-z)$

$ \bullet\ $Comme $ d^-(z) \leq d^+(z)$, on peut résumer ces assertions en

$\displaystyle f(x) \geq f(z)+d^-(z)(x-z)$

valable pour tout $ x$.
$ \bullet\ $Il est facile de voir que $ E(X) \in G$
$ \bullet\ $On peut donc spécialiser l'affirmation de l'avant-dernier point en $ f(x) \geq f(E(X)) +d^-(E(X))(x-E(X))$ $ \bullet\ $En intégrant l'inégalité ci-dessus il vient

$\displaystyle E(f(X)) \geq f(E(X)) $

La preuve est ainsi complète$ \sqcap$$ \sqcup$

$ \boxcircle$ Espaces $ L^p$

Attention! Attention! Attention! Dans le contexte des probabilités, $ L^p$ désignera, étant donné un univers $ \Omega$, $ L^p(\Omega)$, $ \Omega$ étant muni d'une mesure de probabilité ($ L^p$ est en fait dépendant de l'univers $ \Omega$, de la tribu définie sur $ \Omega$, et de la mesure définie sur cette tribu). Ne pas généraliser les résultats qui suivent au cas général de $ L^p(X)$ pour $ X$ espace mesuré quelconque !

Proposition Pour $ p \in [1,+\infty]$, alors $ L^{p'} \subset L^p$ pour tout $ p' \geq p$ (éventuellement $ p'$ infini). En outre pour tout $ X$ dans $ L^{p'}$, on a $ N_{p'}(X) \leq N_p(X)$.

Démonstration: Pour l'inclusion, il suffit de voir la proposition [*].
Pour l'inégalité, on peut clairement se ramener au problème des variables aléatoires positives.
Etant donné $ X$ à valeurs positives dans $ L^{p'}(X)$, on définit $ X_n({\omega})=min(X({\omega}),n)$.
Alors $ X_n$ est bornée, et donc $ X_n^{p'}$ et $ X_n^p$ aussi, donc $ X_n^{p'}$ et $ X_n^p$ sont dans $ L^1$ (on utilise le fait que la mesure est finie). On peut donc appliquer l'inégalité de Jensen (voir théorème [*]) avec la variable aléatoire $ X_n^p$ et la fonction convexe $ x \mapsto x^{p'/p}$, et écrire

$\displaystyle E(X_n^p)^{p'/p}\leq E({X_n^p}^{p'/p}) = E(X_n^{p'}) \leq E(X^{p'})$

On applique alors le théorème de convergence monotone à $ X_n^p$ et

$\displaystyle E(X^p)^{p'/p} \leq E(X^{p'})$

En élevant à la puissance $ 1/p'$ on a alors

$\displaystyle N_p(X) \leq N_{p'}(X)$

La preuve est ainsi complète.$ \sqcap$$ \sqcup$

Les résultats usuels dans $ L^p$ sont valables, notamment l'inégalité de Schwartz, de Hölder, de Minkowski, pour lesquels on consultera la partie [*].
Pour rappeler l'essentiel:
$ \bullet\ $Si $ X$ et $ Y$ sont des variables aléatoires de $ L^2$, alors le produit $ X.Y$ appartient à $ L^1$, et

$\displaystyle \vert E(X.Y)\vert \leq E(\vert X.Y\vert) \leq N_2(X).N_2(Y) $

$ \bullet\ $Si $ X$ et $ Y$ sont des variables aléatoires de $ L^2$, alors la somme $ X+Y$ appartient à $ L^2$, et

$\displaystyle N_2(X + Y) \leq N_2(X) + N_2(Y)$

Une proposition est nécéssaire pour bien comprendre ce qu'il se passe:

Proposition

Soit $ X$ une variable aléatoire , et soit $ f$ une fonction mesurable de $ \mathbb{R}$ dans $ \mathbb{R}$, alors $ f\circ X$ est une variable aléatoire de $ L^1$ (au sens donné ici, c'est à dire $ L^1(\Omega)$, avec $ \Omega$ muni d'une mesure de probabilité) si et seulement si $ f$ est dans $ L^1(\mathbb{R},L_X)$ avec $ L_X$ la loi de $ X$.
On a alors

$\displaystyle E(f \circ X) = \int f(x).dL_X$


Voir la proposition [*] et la définition qui la précède pour bien cerner ce qu'est une loi de probabilité.
Démonstration: Si vous n'arrivez pas à le faire vous-mêmes, mieux vaut relire tout le chapître. La méthode est la suivante:
$ \bullet\ $Si $ f$ est une fonction caractéristique d'un borélien, il s'agit simplement de la définition de la loi de probabilité.
$ \bullet\ $Si $ f$ est simple, alors par linéarité la propriété est aussi vraie.
$ \bullet\ $Si $ f$ est positive, alors $ f$ est limite croissante de fonctions simples, donc on peut appliquer le théorème de convergence monotone.
$ \bullet\ $Enfin dans le cas général, $ f$ s'écrit comme différence de deux fonctions mesurables positives.$ \sqcap$$ \sqcup$

Définition [Mesure image] Etant donnée $ f$ une application mesurable d'un espace $ \Omega$ mesuré par une mesure $ \mu$ dans $ \mathbb{R}$ muni des boréliens, on note $ \mu^f$ la mesure appelée mesure image de $ \mu$ par $ f$ définie sur l'ensemble des boréliens de $ \mathbb{R}$ par

$\displaystyle \mu^f(E)=\mu(f^{-1}(E)$


Il s'agit bien d'une mesure.

Théorème [Théorème de transport] Pour toute fonction mesurable $ \phi$ de $ \mathbb{R}$ dans $ \mathbb{R}$,

$\displaystyle \int_\mathbb{R}\phi d\mu^f=\int_{\Omega} \phi\circ f \ d\mu$


On ramène ainsi les intégrales du type $ \int_\Omega dP$ à des intégrales sur $ \mathbb{R}$ pour la mesure de Lebesgue; on n'a pas besoin de connaître la structure de $ \Omega$, mais seulement les lois.

Démonstration: Le chapître sur l'intégration permet de comprendre clairement les notions en jeu. Il s'agit en fait simplement de vérifier la formule dans le cas d'une fonction caractéristique d'un borélien, puis d'un le cas d'une fonction simple (i.e. étagée1.2 et mesurable) grâce à la linéarité de l'intégrale, puis pour une fonction positive par passage au $ sup$, puis dans le cas général en exprimant une fonction comme différence de deux fonctions l'une positive et l'autre négative (utilisation du théorème de convergence monotone à la fois pour les fonctions simples tendant vers $ \phi$ et pour les fonctions simples tendant vers $ \phi \circ f$).$ \sqcap$$ \sqcup$

Corollaire On peut écrire le même théorème avec une fonction $ \phi$ de $ \mathbb{R}^n$ dans $ \mathbb{R}$ et $ f$ de $ \Omega$ dans $ \mathbb{R}^d$.

Démonstration: Même principe que ci-dessus.$ \sqcap$$ \sqcup$

$ \boxcircle$ Densité de probabilité

Définition Etant donné $ X$ une variable aléatoire , une application $ f_X$ mesurable est appelée une densité de probabilité de $ X$ si et seulement si pour tout borélien $ E$ de $ \mathbb{R}$ $ P(X^{-1}(E))=\int_E f_X$.

Notons que bien sûr $ \int_\mathbb{R}f_X =1$

$ \boxcircle$ Variance, covariance, lois jointes, densités jointes, fonctions de répartition jointes

Définition [Covariance et variance] Etant donnée $ X$ une variable aléatoire , on définit la déviation de $ X$ par $ \tilde X=X-E(X)$.
Etant données $ X$ et $ Y$ des variables aléatoires dans $ L^2$, on définit la covariance de $ X$ et $ Y$ par

$\displaystyle Cov(X,Y)=E( \tilde X.\tilde Y)$

Etant donnée $ X$ une variable aléatoire dans $ L^2$, on définit la variance de $ X$ par

$\displaystyle Var(X)=Cov(X,X)$

Le produit scalaire de deux variables aléatoires $ X$ et $ Y$ de $ L^2$ est l'espérance de $ X.Y$ (comme dans le cadre d'un espace $ L^2$ quelconque), noté $ <X\vert Y>$.
On appelle corrélation entre deux variables aléatoires $ X$ et $ Y$ de norme $ 2$ non nulles le réel de $ [0,1]$ $ cor(X,Y) = \frac{<\tilde X\vert\tilde Y>}{N_2(\tilde X).N_2(\tilde Y)}$. On appelle angle entre deux variables aléatoires $ X$ et $ Y$ de norme $ 2$ non nulles le réel $ \theta$ appartenant à $ [0,\Pi]$ tel que $ cos(\theta)=\frac{<X\vert Y>}{N_2(X).N_2(Y)}$.
Deux variables aléatoires sont dites non corrélées si leur covariance est nulle.
On appelle matrice de covariance d'un suite fini de variables aléatoires $ (X_1,...,X_d)$ la matrice $ M$ définie par $ M_{i,j}=cov(X_i,X_j)$.

Corollaire [Inégalité de Tchébitchev] Pour $ X$ variable aléatoire, $ P(\vert X-E(X)\vert>\epsilon )\leq Var(X)/\epsilon ^2$.

Application(s)... Voir le théorème [*] sur les polynomes de Bernstein.

Démonstration: Il suffit d'appliquer le corollaire [*] de l'inégalité de Markov à $ (X-E(X))^2$.$ \sqcap$$ \sqcup$

La définition de la covariance et de la variance se justifie par le fait que si $ X$ est dans $ L^2$, alors $ X-E(X)$ aussi, et donc $ (X-E(X)).(Y-E(Y))$ est dans $ L^1$ par l'inégalité de Schwartz.
La définition de la corrélation se justifie par l'inégalité de Schwartz.
La corrélation entre deux variables aléatoires est le cosinus de l'angle entre les déviations de ces variables aléatoires.
On a $ cov(X,Y)=E(X.Y)-E(X).E(Y)=<\tilde X\vert \tilde Y>$ et $ var(X)=E(X^2)-E(X)^2$.
Si $ X_1,...,X_n$ sont des variables aléatoires , alors

$\displaystyle var(\sum_{i\in [1,n]} X_i)= \sum_{(i,j) \in [1,n]^2} cov(x_i,x_j)$

$\displaystyle var(\sum_{i\in [1,n]} X_i)=\sum_{i\in[1,n]} var(x_i) + \sum_{(i,j) \in [1,n]^2,i\neq j} cov(x_i,x_j)$

$\displaystyle var(\sum_{i\in [1,n]} X_i)=\sum_{i\in[1,n]} var(x_i) + 2.\sum_{(i,j) \in [1,n]^2,i<j} cov(x_i,x_j)$

Pour plus d'informations voir[*] et plus spécialement[*].

Théorème [Une propriété fondamentale des variables aléatoires indépendantes] Soient $ X$ et $ Y$ des variables aléatoires indépendantes appartenant à $ L^1$. Alors $ X.Y$ est $ L^1$ et

$\displaystyle E(X.Y)=E(X).E(Y)$

Soient $ X$ et $ Y$ des variables aléatoires indépendantes appartenant à $ L^2$. Alors :

$\displaystyle cov(X,Y)=0$

$\displaystyle var(X+Y)=var(X)+var(y)$


Démonstration: On se préoccupe tout d'abord du premier résultat:
$ \bullet\ $Si $ X$ et $ Y$ sont des fonctions caractéristiques, alors $ X=\chi_E$ et $ Y=\chi_F$, et $ E(X.Y)=P(\chi_{E\cap F})=P(E).P(F)$ par indépendance.
$ \bullet\ $Si $ X$ et $ Y$ sont des fonctions simples alors ce sont des combinaisons linéaires de fonctions caractéristiques, donc le résultat est aussi valable.
$ \bullet\ $Si $ X$ et $ Y$ sont positives, alors ce sont des limites de fonctions simples, donc le résultat est aussi valable par le théorème de convergence monotone.
$ \bullet\ $Dans le cas général, $ X$ et $ Y$ s'écrivent comme différences de deux fonctions positives.
La suite se déduit facilement, au vu des définitions de la covariance et de la variance.$ \sqcap$$ \sqcup$

Attention! Notez bien qu'il n'y a PAS d'erreur dans l'énoncé, $ X$ et $ Y$ sont supposées dans le premier cas appartenant à $ L^1$, et pas nécéssairement à $ L^2$.

Pour cerner plus précisément l'intérêt de l'indépendance des variables aléatoires , on a besoin de définitions supplémentaires utilisant les mesures produits (voir la partie[*] pour connaître les bases requises).

Définition Etant données $ X_1,...,X_n$ des variables aléatoires , on appelle
$ \bullet\ $loi jointe de $ X_1,...,X_n$ ou simplement loi de $ X_1,...,X_n$ l'application $ L_{X_1,...,X_n}$ qui à un borélien $ E$ de $ \mathbb{R}^n$ associe $ P(F)$ avec $ F=\{{\omega}\in \Omega / (X_1({\omega}),...,X_n({\omega})) \in E \}$.
$ \bullet\ $fonction de répartition de $ X_1,...,X_n$ l'application qui à $ (x1,...,x_n)$ dans $ \mathbb{R}^n$ associe $ L_{X_1,...,X_n}(]-\infty,x_1],...,]-\infty,x_n])$.
$ \bullet\ $densité de probabilité ou simplement densité de probabilité de $ X_1,...,X_n$ une application $ f$ de $ \mathbb{R}^n$ dans $ \mathbb{R}$ telle que pour tout borélien $ E$ de $ \mathbb{R}^n$ on ait $ L_{X_1,...,X_n}(E)=\int_E f$.

On note que le théorème de Fubini permet d'affirmer qu'étant donnée $ f$ densité de probabilité jointe de $ X_1,...,X_n$ l'application

$\displaystyle x\mapsto \int_{(x_1,...,x_{i-1},x_{i+1},...,x_n) \in \mathbb{R}^{n-1}} f(x_1,...,x_{i-1},x,x_{i+1},...,x_n)$

est une densité de probabilité de $ X_i$.

Théorème Soient $ X_1,...,X_n$ des variables aléatoires . On note $ L_{X_i}$ la loi de probabilité de $ X_i$, $ F_{X_i}$ la fonction de répartition de $ X_i$, $ L_{X_1,...,X_n}$ la loi de probabilité jointe de $ X_1,...,X_n$, $ F_{X_1,...,X_n}$ la fonction de répartition de $ X_1,...X_n$, $ f_{X_i}$ une densité de probabilité de $ X_i$, $ f_{X_1,...,X_n}$ une densité de probabilité de $ X_1,...X_n$.
Alors

$\displaystyle X_1,...,X_n$    sont indépendantes $\displaystyle \iff L_{X_1,...,X_n}=L_{X_1} \otimes ... \otimes L_{X_n}$

$\displaystyle X_1,...,X_n$    sont indépendantes $\displaystyle \iff $

$\displaystyle F_{X_1,...,X_n}(x_1,...,x_n)=F_{X_1}(x_1)\times ... \times F_{X_n}(x_n)$

$\displaystyle X_1,...,X_n$    sont indépendantes $\displaystyle \iff $

$\displaystyle f_{X_1,...,X_n}(x_1,...,x_n)=f_{X_1}(x_1)\times ... \times f_{X_n}(x_n)$   presque partout


Démonstration: Admise.$ \sqcap$$ \sqcup$

Proposition [Egalité de Bienaymé] Si les $ X_i$ sont deux à deux non corrélées (par exemples indépendantes), alors

$\displaystyle Var(\sum_{i=1}^n X_i)=\sum_{i=1}^n Var(X_i)$


Démonstration:

$\displaystyle Var(\sum_i X_i)$

$\displaystyle =E((\sum X_i - E(\sum X_i))^2)$

$\displaystyle =E( (\sum_i X_i-E(X_i))^2 )$

$\displaystyle =\sum_{(i,j)\in[1,n]^2} E( (X_i-E(X_i)).(X_j-E(X_j)) )$

$\displaystyle =\sum_{i\in[1,n]} Var(X_i)$

La preuve est complète...$ \sqcap$$ \sqcup$

Corollaire [Inégalité de Bienaymé-Tchébitchev] Si les $ (X_i)_{i\in[1,n]}$ sont deux à deux indépendantes, pour $ t>0$,

$\displaystyle P( \vert\sum_i X_i - E(X_i) \vert \geq t ) \leq \frac{\sum_i Var(X_i)}{t^2}$


Application(s)... On peut par exemple voir [*].

Démonstration: Il suffit de combiner l'inégalité de Tchébitchev et l'égalité de Bienaymé.$ \sqcap$$ \sqcup$



Notes

... étagée1.2
Etagée $ =$ ne prenant qu'un nombre fini de valeurs

next up previous index
suivant: Somme de variables aléatoires monter: Variables aléatoires précédent: Variables aléatoires indépendantes   Index
C_Antonini,J_F_Quint,P_Borgnat,J_Bérard,E_Lebeau,E_Souche,A_Chateau,O_Teytaud
 

 
©Emmanuel Vieillard Baron 01-01-2001
Adresse Mail:

Inscription
Désinscription

Actuellement 16057 abonnés
Qu'est-ce que c'est ?
Taper le mot à rechercher

Mode d'emploi
En vrac

Faites connaître Les-Mathematiques.net à un ami
Curiosités
Participer
Latex et autres....
Collaborateurs
Forum

Nous contacter

Le vote Linux

WWW IMS
Cut the knot
Mac Tutor History...
Number, constant,...
Plouffe's inverter
The Prime page