Les-Mathematiques.net - Cours de mathématiques universitaires - Forum - Cours à télécharger

A lire
Deug/Prépa
Licence
Agrégation
A télécharger
Télécharger
107 personne(s) sur le site en ce moment
E. Cartan
A lire
Articles
Math/Infos
Récréation
A télécharger
Télécharger
Théorème de Cantor-Bernstein
Théo. Sylow
Théo. Ascoli
Théo. Baire
Loi forte grd nbre
Nains magiques
 
 
 
 
 
Moments et variance next up previous
suivant: Les variables aléatoires à monter: Moments, fonctions génératrices, transformées précédent: Moments, fonctions génératrices, transformées

Moments et variance

Théorème 6.1 Soit $ (\Omega,\mathcal{A},P)$ un espace de probabilité, et soit $ n$ un entier $ >0.$ Soit $ \mathcal{L}_n$ l'ensemble des v.a. $ X$ sur cet espace telles que l'espérance $ m_n=\hbox{I\hskip -2pt E}(X^n)$, appelée moment d'ordre $ n$, existe. Alors $ \mathcal{L}_n$ est un espace vectoriel, et on a

$\displaystyle \mathcal{L}_1\supset \mathcal{L}_2\supset \cdots \supset \mathcal{L}_n.$

$  $

Démonstration Puisque $ f(x) =x^n$ définit une fonction convexe sur la demi-droite positive, on peut écrire pour $ x$ et $ y$ positif que

$\displaystyle (\frac{x+y}{2})^n\leq\frac{1}{2}(x^n+y^n),$

et donc $ \vert X+Y\vert^n\leq (\vert X\vert+\vert Y\vert)^n\leq 2^{n-1}(\vert X\vert^n+\vert Y\vert^n)$. Une autre méthode pour obtenir cette inégalité est de montrer que $ g(t)=2^{n-1}(t^n+1)-(t+1)^n$ atteint son minimum sur $ [0,+\infty[$ en $ t=1$ et de considérer $ g(x/y)$.

Si maintenant les espérances de $ \vert X\vert^n$ et de $ \vert Y\vert^n$ sont finies, on en déduit d'après la fin du théorème 5.2 que l'espérance de $ \vert X+Y\vert^n$ est finie et que $ X+Y$ est dans $ \mathcal{L}_n$ quand $ X$ et $ Y$ y sont. Enfin, pour voir que si l'espérance de $ \vert X\vert^n$ est finie il en est de même pour $ \vert X\vert^{n-1},$ on utilise l'inégalité

$\displaystyle \vert X\vert^{n-1}\leq 1+\vert X\vert^n,$

qu'on vérifie immédiatement en étudiant les cas $ \vert X\vert\leq 1$ et $ \vert X\vert\geq 1.$ Le fait que $ \mathcal{L}_{n-1}\supset \mathcal{L}_n$ s'en déduit.

Définition Le moment centré d'ordre $ n$ de la variable aléatoire $ X$ est défini par $ \hbox{I\hskip -2pt E}[(X-m_1)^n]$ $ m_1=\hbox{I\hskip -2pt E}(X)$ .

Remarquons au passage que si le moment non centré $ m_n$ existe, alors le moment centré existe, puisque c'est l'espérance d'un polynôme en $ X$ de degré $ n$ et qu'on vient de voir que les moments de degré inférieur à $ n$ existaient.

Le cas particulier réellement important est le cas où $ n=2$.

Définition Soit $ X$ une variable aléatoire réelle. On appelle le moment centré d'ordre 2 de $ X$ la variance de $ X$, et sa racine carrée positive l'écart type de $ X$, encore appelé déviation standard. On note l'écart type $ \sigma(X)$ et la variance $ (\sigma(X))^2,$ ou plus rarement $ V(X).$

Insistons sur le fait que l'écart type a la dimension de la variable aléatoire: si celle ci s'exprime en centimètres, l'écart type s'exprime en centimètres et la variance en centimètres carrés. Il faut connaître les deux formules suivantes:

Proposition 6.2 Si $ X$ a un moment d'ordre 2, alors pour $ \lambda$ réel

$\displaystyle \sigma^2(\lambda X)=\lambda^2 \sigma^2(X),$

et Formule de Huyghens:

$\displaystyle \sigma^2(X)=\hbox{I\hskip -2pt E}(X^2)-(\hbox{I\hskip -2pt E}(X))^2.$

En particulier, $ (\hbox{I\hskip -2pt E}(X))^2\leq \hbox{I\hskip -2pt E}(X^2),$ avec égalité si et seulement si la loi de $ X$ est une probabilité de Dirac.

Démonstration La première formule est immédiate. Pour Huyghens:

$\displaystyle \sigma^2(X)=\hbox{I\hskip -2pt E}(X^2-2m_1X+m_1^2)=
\hbox{I\hski...
...hskip -2pt E}(X)+m_1^2=\hbox{I\hskip -2pt E}(X^2)-(\hbox{I\hskip -2pt E}(X))^2.$

Ici on a utilisé le fait que l'espérance d'une constante est la constante elle même et que $ m_1=\hbox{I\hskip -2pt E}(X).$ Quant à la dernière inégalité elle vient du fait qu'une variance est toujours positive ou nulle. Si la variance est nulle, alors appliquant le 5) du théorème 5.2 à la v.a. positive $ Y=(X-m_1)^2$, alors la loi de $ Y$ est $ \delta_0$ et celle de $ X$ est donc $ \delta_{m_1}.$

Il y a également à connaître deux inégalités célèbres:

Proposition 6.3 Inégalité de Markov Si $ Y$ est une variable aléatoire positive ou nulle dont l'espérance existe, alors pour tout $ y>0$ on a

$\displaystyle P(Y\geq y)\leq \frac{1}{y}\hbox{I\hskip -2pt E}(Y).$

Inégalité de Tchebychev Si $ X$ est une variable aléatoire ayant un second moment, alors pour tout $ t>0$ on a

$\displaystyle P(\vert X-\hbox{I\hskip -2pt E}(X)\vert\geq t)\leq \frac{1}{t^2}\sigma^2(X).$


Démonstration

$\displaystyle \hbox{I\hskip -2pt E}(Y)=\hbox{I\hskip -2pt E}(Y{\bf 1}_{Y\geq y}...
...\bf 1}_{Y\geq y})
\geq y \hbox{I\hskip -2pt E}({\bf 1}_{Y\geq y})=yP(Y\geq y),$

ce qui est équivalent à l'inégalité de Markov en divisant les extrémités par $ y.$

On applique ensuite Markov à $ Y=(X-m_1)^2$ et à $ y=t^2.$ Comme

$\displaystyle P(\vert X-m_1\vert\geq t)=P((X-m_1)^2\geq t^2)\leq
\frac{1}{t^2}\hbox{I\hskip -2pt E}((X-m_1)^2)=\frac{1}{t^2}\sigma^2(X),$

l'inégalité de Tchebychev est aussi démontrée.

Finalement, la variance d'une somme de variables aléatoires indépendantes est la somme des variances. Plus précisément:

Proposition 6.4 Si $ X_1,X_2,\ldots, X_N$ sont des variables aléatoires indépendantes ayant un second moment, alors

$\displaystyle \sigma^2(X_1+\cdots+X_N)=\sigma^2(X_1)+\cdots+\sigma^2(X_N).$

$  $

Démonstration Procédons par récurrence sur $ N$. C'est trivial pour $ N=1$. Montrons le pour $ N=2.$ Notons pour simplifier $ X=X_1-\hbox{I\hskip -2pt E}(X_1)$ et $ Y=X_2-\hbox{I\hskip -2pt E}(X_2).$ Tous deux sont d'espérance nulle. Alors

$\displaystyle \sigma^2(X_1+X_2)=\hbox{I\hskip -2pt E}((X+Y)^2)=\hbox{I\hskip -2...
...x{I\hskip -2pt E}(XY)+\hbox{I\hskip -2pt E}(Y^2)=\sigma^2(X_1)+
\sigma^2(X_2),$

car $ \hbox{I\hskip -2pt E}(XY)=\hbox{I\hskip -2pt E}(X)\hbox{I\hskip -2pt E}(Y)=0$ en utilisant l'indépendance de $ X$ et de $ Y$. Ensuite, supposons le résultat vrai à l'ordre $ N-1.$ Alors appliquant le résultat pour $ N=2$ au couple $ X=X_1+\cdots+X_{N-1}$ et $ Y=X_N$, puis l'hypothèse de récurrence, on arrive au résultat.

En corollaire, on a donc la loi faible des grands nombres qui dit que en un certain sens, si des variables aléatoires sont indépendantes et de même loi, alors leur moyenne arithmétique tend vers leur espérance commune. Plus précisément:

Théorème 6.5 Loi faible des grands nombres Soit $ X_1,X_2,\dots$ une suite infinie de v.a. indépendantes et de même loi, et possédant un second moment. Alors, pour tout nombre $ \epsilon>0$ fixé on a

$\displaystyle \lim_{n\rightarrow \infty}
P\left(\vert\frac{X_1+\cdots+X_n}{n}-\hbox{I\hskip -2pt E}(X_1)\vert \geq \epsilon \right)=0.$

$  $

Démonstration Notons $ S_n=X_1+\cdots+X_n.$ Alors $ \hbox{I\hskip -2pt E}(S_n/n)=\hbox{I\hskip -2pt E}(X_1)$ et

$\displaystyle \sigma^2(S_n/n)=\sigma^2(S_n)/n^2=
(\sigma^2(X_1)+\cdots+\sigma^2(X_n))/n^2=\sigma^2(X_1)/n.$

Ici on a utilisé successivement les propositions 6.2 puis 6.4, puis le fait que les $ X_j$ sont de même loi et ont donc même variance. Appliquons alors l'inégalité de Tchebychev à $ X=S_n/n$ et à $ t=\epsilon$; on obtient

$\displaystyle P\left(\vert\frac{X_1+\cdots+X_n}{n}-\hbox{I\hskip -2pt E}(X_1)\vert \geq \epsilon \right)\leq
\frac{1}{n\epsilon^2}\sigma^2(X_1),$

qui tend bien vers 0 pour $ \epsilon$ fixé.

Commentaires: l'importance philosophique de la loi des grands nombres est non négligeable: elle justifie la démarche que nous avons adoptée pour modéliser le calcul des probabilités. L'idée d'expérience décrite au début de ce cours est la sélection d'un point $ \omega$ dans un espace d'observables $ \Omega$, mais par un procédé susceptible d'être répété ad libitum et dans les mêmes conditions. Soit $ S$ une partie de $ \Omega$, comptons le nombre de fois où $ S$ est réalisé en $ n$ essais, divisons ce nombre par $ n$ et notons par $ f_n$ la fraction, ou la fréquence, ainsi obtenue. L'idée de probabilité est basée sur la constatation physique que la suite des $ f_n$ converge vers un nombre $ P(S)$ qu'on appellera probabilité de $ S$. Si la théorie est bien faite, c'est à dire si les axiomes sont bien choisis, on doit retrouver cette constatation physique quelque part à l'état de théorème dans la théorie développée à partir de ces axiomes. C'est le cas. En effet, le $ \Omega$ initial décrivant une expérience est remplacé par un produit infini $ \prod_{j=1}^{\infty}\Omega_j$ où les $ \Omega_j$ sont identiques à l'$ \Omega$ initial, et sont les résultats possibles de l'expérience répétée à l'instant $ j.$ Les points de ce produit sont donc des suites infinies $ \omega=(\omega_j)_{j=1}^{\infty}.$ Quant à la probabilité sur le produit, elle est telle que toutes les fonctions $ f_j(\omega)=\omega_j$ soient indépendantes. Ceci fait, notons $ X_j(\omega)=1$ si $ \omega_j\in S$ et $ X_j(\omega)=0$ sinon. On a une suite de v.a. de Bernoulli indépendantes et de même loi d'espérance $ p=P(S).$ La loi faible des grands nombres dit que $ f_n=\frac{1}{n}(X_1+\cdots+X_n)$ converge vers $ P(S),$ dans le sens décrit au théorème 6.5. Il existe un théorème avec une conclusion plus précise, appelé loi forte des grands nombres, que nous exposons maintenant.

Théorème 6.6 loi forte des grands nombres Soit $ X_1,\ldots,X_n,\ldots$ des variables aléatoires de Bernoulli indépendantes et de même loi $ q\delta_0+p\delta_1,$ avec $ 0<p=1-q<1.$ Alors

$\displaystyle \Pr(\lim_{n\rightarrow\infty}\frac{1}{n}(X_1+\cdots+X_n)=p)=1.$


Démonstration Elle s'appuie sur le lemme de Borel:

Lemme de Lebesgue Si $ (A_n)_{n\geq 1}$ est une suite d'évènements telle que $ \sum_{n\geq 1} \Pr(A_n)$ converge, alors $ \Pr(\cap_{k\geq 1} \cup_{n\geq k}A_n)=0.$

La démonstration de ce lemme est à peu près triviale: Puisque la suite $ (r_k)_{k\geq 1}$ des restes de la série convergente tend vers 0 et que pour tout entier $ k$ on peut écrire

$\displaystyle \Pr(\cap_{k\geq 1} \cup_{n\geq k}A_n)\leq
\Pr(\cup_{n\geq k}A_n)\leq \sum_{n\geq k}\Pr(A_n)=r_k,$

le résultat s'ensuit en faisant tendre $ k$ vers l'infini.

On se fixe ensuite un nombre $ \epsilon>0$ et on note pour simplifier

$\displaystyle U_n(\epsilon)=U_n=\frac{1}{n}(X_1+\cdots+X_n)-p-\epsilon, \
A_n...
...=A_n=\{U_n>0\},  \
B(\epsilon)=\{\overline{\lim}_{n\rightarrow \infty}U_n>0\}$

Le point délicat de la démonstration est de montrer que pour tout $ \epsilon>0$ il existe un nombre $ r_{\epsilon}=r\in]0,1[$ tel que $ P(A_n)\leq r^n.$ Admettons ce point quelques instants et achevons la démonstration. On remarque d'abord que

$\displaystyle \cap_{k\geq 1} \cup_{n\geq k}A_n=\{\forall k, \exists n\geq k; U_n>0\}.$

Un point subtil est ensuite l'inclusion d'évènements:

$\displaystyle \{\overline{\lim}_{n\rightarrow \infty}U_n>0\}
\subset \{\forall...
...eq k; U_n\geq 0\}
\subset \{\overline{\lim}_{n\rightarrow \infty}U_n\geq 0\}.$

Il n'y a jamais égalité dans ces inclusions: il suffit de penser aux cas $ U_n=1/n$ et $ U_n=-1/n$ pour s'en convaincre. Nous n'allons utiliser que la première inclusion. Ayant admis que $ \Pr(A_n)<r^n$ avec $ r\in]0,1[,$ comme la série géométrique de raison $ r$ converge, le lemme de Borel est appliquable et on en déduit que $ \Pr(B(\epsilon))=0.$

Ensuite on observe que si $ 0<\epsilon<\epsilon'$ on a $ B(\epsilon)\supset B(\epsilon').$ Changeons un peu de notation en écrivant pour $ N$ entier $ B_N=B(1/N).$ La suite d'évènements $ (B_N)_{N\geq 1}$ est donc croissante. Mais comme tous les $ B_N$ sont de probabilité nulle, on a encore $ \Pr(\cup_{N\geq 1}B_N)=0.$ Analysons alors l'évènement $ \cup_{N\geq 1}B_N.$ On a

$\displaystyle \cup_{N\geq 1}B_N=\{\exists N; \overline{\lim}_{n\rightarrow \in...
...N}\}=\{ \overline{\lim}_{n\rightarrow \infty}
\frac{1}{n}(X_1+\cdots+X_n)>p\}.$

Nous avons donc montré que

$\displaystyle \Pr(\overline{\lim}_{n\rightarrow \infty}
\frac{1}{n}(X_1+\cdots+X_n)>p)=0.$

Appliquons ce résultat aux variables de Bernoulli $ X'_n=1-X_n.$ Elles sont de loi $ p\delta_0+q\delta_1$ et donc $ \Pr(\overline{\lim}_{n\rightarrow \infty}
\frac{1}{n}(X'_1+\cdots+X'_n)>q)=0.$ Cependant $ \frac{1}{n}(X'_1+\cdots+X'_n)=1-\frac{1}{n}(X_1+\cdots+X_n)$ et donc

$\displaystyle \Pr(\underline{\lim}_{n\rightarrow \infty}
\frac{1}{n}(X_1+\cdots+X_n)<p)=0.$

L'union de deux évènements de probabilité nulle est nulle, le complémentaire de cette union est de probabilité 1. Cela entraîne:

$\displaystyle \Pr\left(\overline{\lim}_{n\rightarrow \infty}
\frac{1}{n}(X_1+\...
...q \underline{\lim}_{n\rightarrow \infty}
\frac{1}{n}(X_1+\cdots+X_n)\right)=1.$

Donc avec probabilité 1, les limites supérieure et inférieure sont égales à $ p.$ C'est le résultat annoncé.

Reste à montrer qu'il existe $ r_{\epsilon}=r\in]0,1[$ tel que

$\displaystyle \Pr(A_n)=\Pr (\frac{1}{n}(X_1+\cdots+X_n)>p+\epsilon)\leq r^n.$

A l'aide d'un nombre $ s>0$ arbitraire, nous donnons d'abord une autre présentation de cet évènement:

$\displaystyle A_n=\{(\frac{1}{n}(X_1+\cdots+X_n)>p+\epsilon\}=
\{e^{s(X_1+\cdots+X_n)}>e^{sn(p+\epsilon}\}.$

On applique alors l'inégalité de Markov (proposition 6.3) à $ Y=e^{s(X_1+\cdots+X_n)}$ et $ y=e^{sn(p+\epsilon)}.$ On en tire
$\displaystyle \Pr(A_n)$ $\displaystyle \leq$ $\displaystyle \frac{1}{y}\hbox{I\hskip -2pt E}(Y)$  
  $\displaystyle =$ $\displaystyle e^{-sn(p+\epsilon)}\hbox{I\hskip -2pt E}(e^{s(X_1+\cdots+X_n)})$  
  $\displaystyle =$ $\displaystyle (e^{-s(p+\epsilon)}\hbox{I\hskip -2pt E}(e^{sX_1}))^n$  
  $\displaystyle =$ $\displaystyle (e^{-s(p+\epsilon)}(q+pe^s))^n$  
  $\displaystyle =$ $\displaystyle (qe^{-sp-s\epsilon}+pe^{sq-s\epsilon})^n.$  

Insistons sur le fait que cette inégalité est valable pour tout $ s>0.$ Observons alors qu'il existe des valeurs de $ s$ telles que $ s\mapsto \varphi(s)=qe^{-sp-s\epsilon}+pe^{sq-s\epsilon}$ soit $ <1.$ Une manière de le voir est de calculer $ \varphi(0)=1$ et $ \varphi'(0)=-\epsilon.$ Cela entraîne évidemment, puisque $ -\epsilon=\varphi'(0)=\lim_{s\rightarrow 0}(1-\varphi(s))/s,$ qu'il existe $ s_0>0$ proche de 0 tel que $ r=\varphi(s_0)<1.$ Comme $ \varphi>0$ cela termine la démonstration.

Exercices sur 6.1

  1. Soit $ X$ une variable aléatoire telles que $ 0\leq X\leq 1.$ Montrer que $ \sigma^2(X)\leq \frac{1}{4}.$ Méthode: si $ m=\hbox{I\hskip -2pt E}(X),$ écrire

    $\displaystyle \frac{1}{4}-(X-m)^2=(\frac{1}{2}-m)^2+X(1-X)$

    et prendre l'espérance de chaque membre.

$  $


next up previous
suivant: Les variables aléatoires à monter: Moments, fonctions génératrices, transformées précédent: Moments, fonctions génératrices, transformées
Gérard_Letac_Les-Mathematiques.net
 

 
©Emmanuel Vieillard Baron 01-01-2001
Adresse Mail:

Inscription
Désinscription

Actuellement 16057 abonnés
Qu'est-ce que c'est ?
Taper le mot à rechercher

Mode d'emploi
En vrac

Faites connaître Les-Mathematiques.net à un ami
Curiosités
Participer
Latex et autres....
Collaborateurs
Forum

Nous contacter

Le vote Linux

WWW IMS
Cut the knot
Mac Tutor History...
Number, constant,...
Plouffe's inverter
The Prime page