loi de Poisson par morceaux

Pedrito · January 2012

Titre initial : Piecewise Poisson
[Pourquoi pas en français ? AD]

Bonjour
J'ai une variable aléatoire qui suit une loi de Poisson "par morceaux" ; c'est-à-dire une loi de Poisson
de paramètre lambda1 sur l'intervalle [0,t1]
de paramètre lambda2 sur l'intervalle [t1,t2]
de paramètre lambda2 sur l'intervalle [t2,t3]
Je n'arrive pas a écrire ça fonction de répartition.
Pourriez-vous m'aider ?
Cordialement
Pedrito

[En toute occasion, Siméon Poisson (1781-1840) prend une majuscule. AD]

gerard0 · January 2012

Bonjour.

Ce n'est pas très clair ! Que veut dire "une loi de poissonPoisson de paramètre lambda1 sur l'intervalle [0,t1] " ?
La première idée qui m'est venue est que la loi de $P(X=k)$ est $\displaystyle P(X=k)= e^{-\lambda_1}\frac{\lambda_1^k}{k!}$ pour $k$ entier et $0\le k \le t_1$, et idem pour les deux autres cas. Mais non seulement il peut y avoir un problème si $t_1$ est entier, mais si les $\lambda_i$ sont donnés, ça ne fournit pas une loi de probabilité.

Donc il serait sain que tu nous donnes soit l'énoncé précis, soit la raison de cette préoccupation si ce n'est pas un exercice.

Cordialement.

Pedrito · January 2012

Voila le principe.
On s'intéresse à la panne d'une machine industrielle.
On suppose que le taux de panne d'une machine au cours de la première année est lambda1, que le taux de panne au cours de la seconde année est lambda2. Une fois que la machine a une panne, on la jette.
On va avoir n machine, dont l'utilisation ne commence pas au même moment.

On souhaiterait écrire la fonction de répartition de la loi de Poisson par morceaux.
Voyez vous le problème?
Merci

Pedrito

[ Siméon Poisson (1781-1840) s'écrit toujours avec une majuscule. AD]

gerard0 · January 2012

Effectivement,

c'est plus clair.

Mais il ne s'agit plus de loi de Poisson. Puisque le taux de pannes n'est plus constant.

De plus, la loi de Poisson concernerait le nombre de machines tombées en panne en un temps donné, alors que ici, s'il y a bien n machines, elles ne fonctionnent pas sur la même période.

Donc il va falloir expliciter sérieusement ce problème : Qu'est-ce qu'on veut modéliser exactement ? S'agit-il de gérer n machines, ou d'estimer le temps de fonctionnement d'une machine ? le taux de pannes est-il constant dans chaque année ?

De plus, ce taux de pannes qui varie d'une année sur l'autre semble peu sérieux. Ou alors il s'agit d'un exercice "théorique" ?

Cordialement.

Pedrito · January 2012

Il s'agit d'un exercice théorique.
En gros on souhaiterait créer une règle d'arrêt pour "arreter" d'utiliser ces machines si le taux de panne est supérieur au taux prévu.
En gros si sur les n machines à un temps t on a bcp plus de panne que prévu.
JE ne sais pas si je suis clair

Steven Neutral · January 2012

Ta loi de Poisson sert à modéliser quoi ? Le nombre de pannes ? Peux-tu préciser ce point ?

gerard0 · January 2012

Là, je ne comprends plus.

Avec ce que tu disais, le taux de panne était donné.

Mais je me rends compte surtout que je ne sais toujours pas ce que tu veux faire. Si c'est un exercice, tu as un énoncé. Alors au lieu d'en parler, donne-le.
Sinon, il faut que tu définisses exactement la situation. D'autant que cette notion de taux de pannes qui varie brutalement est assez bizarre. Et que tu ne me sembles pas maîtriser la modélisation probabiliste de ce sujet. Ce qui pourrait être mon cas quand j'aurai tous les éléments en main, mais en tout cas, pour l'instant, je ne peux même pas savoir si je saurai faire ou pas.

Cordialement.

NB : arrêter une machine si son taux de pannes est supérieur au taux prévu est facile : On calcule le taux de pannes sur la dernière période. mais ça c'est du concret.

SXB · January 2012

Si je comprends bien ton énoncé, sur l'étiquette des constructeurs collée sur les machines, on lit :

-Probabilité (taux) de panne la première année : a ;
-Probabilité (taux) de panne la seconde année : b ;
-Probabilité (taux) de panne la troisième année : c.

Mettons par exemple que a=0.1, b=0.3 et c=0.5, alors ta machine aura :

-10% de chances de tomber en panne la première année (alors, on la jette) ;
-30% de chances de ne pas tomber en panne la première année mais de tomber en panne la seconde année (alors, on la jette) ;
-50% de chances de ne pas tomber en panne la première année mais de tomber en panne la troisième année : (alors, on la jette).
-10% de chances de ne pas tomber en panne pendant les trois premières années.

OK ?

Bon. Si c'est ça, alors la date de panne de la machine peuvent être modélisées par une variable aléatoire X à valeur dans un ensemble du type [0,3[ U {3}, où l'on considère que si X=3, alors c'est que la machine n'est pas tombée en panne les trois premières années. Sinon, X est tout simplement la date de panne (exprimée en années).

La variable aléatoire Y=X.indicatrice(X,[0,3[) est alors à densité par rapport à la mesure de Lebesgue sur [0,3], de densité :
donnée par :

f0(t) = a.indicatrice(t,[0,1[])+b.indicatrice(t,[1,2[)+c.indicatrice(t,[2,3[)

Il s'agit maintenant de voir quelle est la loi du taux de pannes sur ces n machines :

Le taux de pannes est le nombre de pannes divisé par n.

Le fait de s'intéresser au taux de pannes revient ainsi à s'intéresser aux nombres de pannes...

Quelle est la loi du nombre de pannes parmi n machines ?

Soit F la fonction de répartition de la loi de X. Une machine est en panne à l'instant t si et seulement si on a :
X<=t.

La probabilité de cet évènement est donc clairement F(t).

Autrement dit, en supposant les fonctionnements des différentes machines comme étant indépendant, le nombre de machines en panne à un instant t suit B(n,F(t)), la loi binomiale de paramètre F(t).

Il ne reste plus qu'à calculer F(t) :

f0(t)=a.indicatrice(t,[0,1[)+b.indicatrice(t,[1,2[)+c.indicatrice(t,[2,3[).

Donc :

Pour tout t dans l'intervalle [0,3], on a, en intégrant puis en effectuant les autres bidouilles nécessaires :

F(t)=a.t.indicatrice(t,[0,1[)+(a+b(t-1)).indicatrice(t,[1,2[)+(a+b+c(t-2)).indicatrice(t,[2,3[)+indicatrice({3})

Autrement dit : F est affine par morceaux sur [0,1[, ses points de brisure étant en 1 et 2, et présente éventuellement une discontinuité en 3, où elle "saute" de a+b+c à 1.

F(0)=0, F(1)=a, F(2)=a+b, F(3-)=a+b+c et F(3)=1.

Après, une fois que tu as t, tu as F(t), donc tu peux bâtir des tests.

Déjà, tu sais que l'espérance de la loi B(n,F(t)) est n.F(t), donc tu peux bâtir un test naïf :
Le fait de constater à l'instant t que le nombre de machines en panne (parmi les n de départ) est >n.F(t)
est équivalent à dire que le taux de pannes est > au taux prévu...mais c'est un test naïf.

Je te l'ai donc juste dit pour répondre à ta question, mais je te le déconseille...

Ce que je te conseille, c'est de bâtir un planning régulier de vérification du taux de pannes...(avec la période que tu veux).

A chacune des dates t prévues pour les vérifications, tu examines ensuite la loi B(n,F(t)).

Tu peux te dire : je sais que mon taux de pannes est aléatoire...mais bon...

si par exemple toutes les n machines sont en pannes à t, tu sais déjà que la probabilité que ça arrive était de :

B(n,F(t)) (n) = (F(t))ⁿ...

Par exemple, au bout d'un an, avec mon exemple numérique ci-dessus, on a F(1)=a=0.1=10%.

SI tu as acheté 100 machines à t=0 le fait qu'au bout d'un an elles soient toutes en panne a une probabilité de :

0.1¹⁰⁰=10^-100

Tu vois ce que je veux dire : si un évènement très improbable (et défavorable) arrive, c'est que quelque chose cloche !!!

Donc tu te fais rembourser tes machines ...

Donc voilà ... examine la tolérance que tu veux : ce que je te conseille, surtout s'il y a beaucoup de machines, c'est de prendre des intervalles de confiance à 5%... ou à 10%...

En gros, tu regardes pour la loi B(n,F(t)) à partir de combien de machines la proba d'autant de pannes est <5%...

Si jamais ce seuil (qui est > au taux prévu !!! Ne vas pas gueuler s'il y a une machine de trop sur 1000 qui est en panne !!! )
est dépassé, alors là tu peux aller gueuler auprès du fabricant!^^

Capish ?^^

N.B. : quand t est pas trop faible et n relativement grand, si S(t) est le nombre de pannes à t, tu peux "approcher"
la loi de (S(t)-F(t))/racine(n) par la loi N(0,F(t)(1-F(t))), c'est à dire la loi normale centrée de variance F(t)(1-F(t)).
Autrement dit, tu peux également "approcher" la loi de (S(t)-F(t))/racine(n.F(t)(1-F(t))) par la loi N(0,1),
la loi normale centrée réduite.

Donc concrètement pour finir :

-Tu achètes tes n machines ;
-Tu définis un planning de vérifications ;

Puis :

A chaque date t (mettons, tous les 3 mois par exemple...)

-Tu comptes combien de machines sont en pannes. C'est S(t) ;
-Si n est grand (genre : 400 machines) : tu calcules (S(t)-F(t))/racine(n.F(t)(1-F(t))) et tu regardes s'il est plus grand que le quantile d'ordre 0.95 de la loi N(0,1)...(de mémoire, ce quantile vaut 1.65 environ, donc tu regardes si (S(t)-F(t))/racine(n.F(t)(1-F(t)))>1.65) ;
-Si n est petit (genre : 3 photocopieurs ^^), tu fais la même chose mais avec la loi B(n,F(t)) à la place de N(0,1) et en utilisant S(t) à la place de (S(t)-F(t))/racine(n.F(t)(1-F(t))).

Après je laisse aux spécialistes le soin de donner des précisions sur les vitesses de convergence en loi vers N(0,1)...
je crois que je devrais moi-même les connaître...mais je n'en suis pas sûr^^

En espérant t'avoir aidé...

Perito · January 2012

Oui c'est exacement ça SXB, sauf qu'on s'attend à avoir des taux de pannes très faibles donc nous souhaitons utiliser une loi de Poisson avec un test exact.
C'est pour ça qu'on cherche à modéliser le nombre de pannes par une loi de Poisson par morceaux.
Pedrito

SXB · January 2012

Ouais, mais le problème, vois tu, c'est qu'une loi de Poisson, c'est sur IN et pas sur des intervalles...

-c'est discret ;
-c'est sur un ensemble non borné !

Avec des taux de pannes faibles, on peut toutefois essayer de faire apparaître des lois de Poisson de deux façons différentes dans le raisonnement précédent :

- Si les taux de pannes (qui à l'instant t valent F(t)) sont très faibles, et n est très grand, ... (les 3 premières années), on peut approcher la loi B(n,F(t)) par la loi de Poisson P(nF(t)). Mais attention à t=3 : ça ne marche pas... mais bon on s'en fout car, rassure toi, ça marche pour t < 3 ...

- On peut remplacer les indicatrices par des choses qui ressemblent à des densités de loi de Poisson, mais qui nécessairement seront discrétisées (ou représentées par un ensemble d'indicatrices proportionnées à l'échelle de chaque valeur de la densité de chaque loi de Poisson) ET qui SERONT NECESSAIREMENT TRONQUEES à un moment !

Je crois avoir compris que la seconde version ressemblait plus à ce que tu voulais.
Tu peux reprendre mon raisonnement à partir de cela.
Cependant, je ne trouve pas cela très pertinent, car :

- Ta discrétisation du problème supposerait, pour que le nombre fini de valeurs pendant chaque année soit grand, que tu fasses des contrôles très rapprochés dans le temps (par exemple, tous les jours ou toutes les semaines), ce qui est coûteux pour une entreprise.

- Je ne vois pas pourquoi on passerait d'une loi de Poisson tronquée à une autre ... En effet, ce serait comme si les machines changeaient brusquement de comportement (bien précis !) d'une année à l'autre... ce qui n'est pas du tout pertinent comme hypothèse !

Ce que je te suggère, c'est de prendre la première ...
tu poses :
- Lambda_1=nF(1)=a ;
- Lambda_2=nF(2)=a+b ;
- Lambda_3=nF(3-)=a+b+c.
Et là tu dis que :
- La variable aléatoire qui te donne le nombre de pannes à t=1 suit P(Lambda_1) ;
- La variable aléatoire qui te donne le nombre de pannes à t=2 suit P(Lambda_2) ;
- La variable aléatoire qui te donne le nombre de pannes à t=3 suit P(Lambda_3).

C'est assez pertinent car :
- Le nombre de pannes est discret et comme n est grand, ça "ressemble" à un nombre pouvant "balayer" IN ;
- Ça ne sert à rien de définir une loi précise sur un intervalle si les contrôles sont ponctuels ;
- C'est "relativement" rigoureux.

Tu comprends : c'est à un instant donné qu'apparaissent les lois de Poisson, et ce pour le nombre de pannes, pas sur un intervalle ...
Voili voilou !

[ En toute occasion, Siméon Poisson (1781-1840) prend une majuscule. AD]

egoroffski · January 2012

Je me permets de proposer une interprétation un peu différente du message initial : si on note $X_i$ le nombre de pannes sur l'intervalle $[t_{i-1},t_i]$ (en notant $t_0=0$), l'énoncé semble suggérer que chaque variable $X_i$ suit une loi de Poisson de paramètre $\lambda_i (t_i-t_{i+1})$.

Si on suppose de plus que ces trois variables aléatoires sont mutuellement indépendantes, on peut sintéresser au calcul de la loi du nombre total de pannes, $S=X_1+X_2+X_3$. Une manière d'attaquer le problème est d'utiliser les fonctions génératrices, $f_i(z)=\mathbb{E}(z^{X_i})$ et $g(z)=\mathbb{E}(z^{S})$.

En termes savants, cela correspond à la valeur en $t_3$ d'un processus de Poisson inhomogène, d'intensité constante par morceaux $\lambda(t)=\sum_{i=1}^3 \lambda_i 1_{[t_{i-1},t_i[}(t)$.

SXB · January 2012

Sympa aussi mais je doute que le nombre de pannes sur différentes périodes soient représenté par des variables aléatoires indépendantes...autant pour le fonctionnement des machines ça parait intuitivement vrai, autant pour le nombre de pannes...

Ce qui m'en fait douter, c'est que ce sont les mêmes machines qui sont susceptibles ou non de tomber en panne sur les différentes périodes.

D'ailleurs, je peux te dire que c'est faux :

Si toutes les n machines tombent en panne durant la première période, alors forcément aucune ne tombera en panne pendant la seconde, vu qu'elles auront été jetées...

egoroffski · January 2012

Oui, c'est un cas idéal où le nombre de machines en vie à l'instant initial est infini. Si tu veux, ça revient à dire que pour chaque machine $m$, le temps de panne $T_m$ est tel que $\int_0^{T_m} \lambda(s) \, ds$ est une variable exponentielle de paramètre $1$, où comme précédemment $\lambda(t)=\sum_{i=1}^3 \lambda_i 1_{[t_{i-1},t_i[}(t)$, et en supposant les $T_m$ mutuellement indépendantes.

Mais comme dans ton exemple, on peut le considérer comme une approximation valable si le nombre total de machines est grand devant le nombre moyen de pannes sur la période, $\sum_{i=1}^3 \lambda_i (t_i-t_{i-1})$. Sous cette condition, le cas de figure que tu évoques à une probabilité epsilonesque de se produire.

Là où je t'accorde que ce n'est pas forcément naturel, c'est qu'avec cette interprétation les temps de panne $T_m$ ne vérifient plus la propriété d'absence de mémoire : $\mathbb{P}(T_m>t+h|T_m>t) \neq \mathbb{P}(T_m>h)$. Mais d'un autre côté, on peut imaginer que la probabilité de panne d'une machine augmente au cours du temps, à cause du vieillissement. Si toutes les machines ont été acquises à l'instant $0$ et si leur taux de panne instantané est décrit par la fonction $\lambda(t)$, ça justifie le modèle.

gerard0 · January 2012

Bonjour.

Une voie classique en fiabilité est de considérer que si $R(t)$ est le taux de survie (probabilité qu'une machine fonctionne encore au temps t), alors, $\lambda(t)$ étant le taux de panne instantané, on a $R'(t)=-\lambda(t)R(t)$ i]édit : Corrigé suite à la remarque d'Egoroff[/i. Ce qui permet de trouver dans les cas simples (par exemple $\lambda(t)$ constant) l'expression de $R(t)$, donc la fonction de répartition de la durée de vie.
Dans ce cas, on peut prendre $\lambda(t)=\lambda_1.1_{[0;t_1]}+\lambda_2.1_{[t_1;t_2]}+\lambda_3.1_{[t_2;t_3]}+ ???$ et essayer de trouver $R(t)$. Ou au moins d'intégrer sur le premier intervalle avec la condition initiale $R(0)=1$, puis sur le second avec la condition finale du précédent comme condition initiale, etc. Ce qui revient, si je ne m'abuse, à raccorder des fonctions exponentielles (*).
Il faudra ensuite en déduire les probabilités de panne.

Cordialement.

(*) Plus exactement leurs primitives.

egoroffski · January 2012

Oui Gérard, c'est plus ou moins ce que je suggérais dans mon post précédent. Sauf que l'équation différentielle est plutôt $R'=-\lambda R$. On a simplement $R(t)=\exp \left( -\int_0^t \lambda(s) \, ds \right)$ (on peut être plus explicite mais ça n'a pas forcément de sens) et pour une machine $m$ donnée, $\mathbb{P}(T_m>t)=R(t)=\mathbb{P}(E>\int_0^t \lambda(s) \, ds)$ où $E$ est exponentielle de paramètre $1$. C'est ce qui justifie que $\int_0^{T_m} \lambda(s) \, ds$ a la même loi que $E$ (du moins conditionnellement à $T_m < t_3$ ; après, on ne sait pas trop ce qui se passe).