Événements anormaux

Truon · January 2019

Bonjour
Je prends contact avec vous concernant le problème de la détection d’événements anormalement élevés ou faibles dans une série chronologique.

Les données ont été acquises pendant un an dans une salle de cinéma de lundi au vendredi (nombre de personnes ayant fréquenté la salle de cinéma entre septembre 2016 et septembre 2017) :

jour 1 : 150 personnes
jour 2 : 150 personnes
jour 3 : 155 personnes
jour 4 : 148 personnes
jour 5 : 150 personnes
...
jour 365 : 147 personnes

On a constaté les événements suivants :

- jour 48 : 141 personnes ont fréquenté le cinéma
- jour 112 : 162 personnes ont fréquenté le cinéma

L'objectif est de savoir si ces deux dernières fréquentations (141 et 162) sont "anormales" (trop faible et trop élevée respectivement) compte-tenu des 363 autres valeurs choisies en quelque sorte comme référence.

La loi de distribution associée à la variable aléatoire (fréquentation du cinéma) n'est pas connue a priori.

Quelle méthode simple quelque soit la loi de distribution mise en jeu me conseilleriez-vous d'utiliser pour savoir si les deux événements précédents sont inhabituels et pouvoir quantifier cette anormalité ? L'utilisation d'une boîte à moustache ne me convient pas car elle suppose une loi normale. En outre, la théorie des valeurs extrêmes ou la méthode du bootstrap me paraît compliqué à utiliser ici.

Je me dis que peut être il est possible de prévoir la fréquentation du cinéma pour les jours 48 et 112 à partir des 363 autres valeurs et de comparer la valeur prédite à la valeur effectivement observée ? Comment faire cette prédiction ?

Merci pour vos réponses.

gerard0 · January 2019

Bonjour.

Tout dépend de la définition de "anormaux". Quelle est la tienne ?

Cordialement.

NB : Dans un tirage de valeurs d'une loi Normale de moyenne 100, d'écart type 5, la valeur 0 est-elle anormale ? Bien sûr que non ! Elle peut être qualifiée d'exceptionnelles, d'improbable (*), mais c'est une des valeur possibles.
(*) attention à ce que ça veut dire. Comme toute autre valeur, y compris 100, la probabilité de l'obtenir est 0.

Truon · January 2019

Bonjour Gerard.

Merci pour ta réponse.

Je suis tout à fait d'accord avec ta remarque que tu as illustrée par le NB.

Ce que j'appelle un événement anormal (ou inhabituel) est en fait un événement suspect dans la série chronologique (qui mériterait d'être examiné de plus près) compte tenu de sa faible probabilité d'apparition (tout en sachant qu'un événement qui a peu de chance de se produire peut être tout à fait normal).

Dans le cas présent, je souhaite estimer la probabilité que le jour 48, 141 personnes fréquentent le cinéma à partir des autres données. Ensuite, en imposant un seuil inférieur (par exemple 0,1 %) dire si l’événement observé est suspect (inhabituel) si sa probabilité d'apparition est inférieure au seuil de 0,1%. Dans ce cas une étude ultérieure sur le jour 48 pourra alors être réalisée pour confirmer ou pas cette suspicion.

gerard0 · January 2019

Difficile de dire ...

Si tu n'as aucun modèle, il ne reste que les cas extrêmes à considérer; par exemple, si tu as 365 jours, une valeur de fréquence inférieure à 1% (au plus 3 fois).
Mais de là à parler de "la probabilité que le jour 48, 141 personnes fréquentent le cinéma à partir des autres données" ... je ne vois même pas ce que ça peut vouloir dire. Le nombre de personnes le jour 48 n'est pas un nombre aléatoire.

Déjà, avec une expérience parfaitement aléatoire, on manque d'intuition : Par exemple les statistiques du loto nous disent que le 42 est sorti seulement 141 fois alors que le 41 est sorti 202 fois (et en plus, ce sont 32 numéros successifs !!). On peut vérifier (par exemple par un test ded khi-deux) que ça ne remet pas en cause la règle d'équiprobabilité des numéros.

Dans ton cas, je ne vois pas ce qu'on pourrait faire ...

lourrran · January 2019

Tu parles de série chronologique.
Si je mesure le poids de mon fils 2 fois par mois, de 5 ans à 15 ans , je vais avoir environ 260 données, comme toi, et l'aspect CHRONOLOGIQUE sera primordial. Dans ton cas, l'aspect chronologique est beaucoup moins flagrant. Sur la base des quelques chiffres que tu donnes, tu as 260 tirages aléatoires (peu importe l'ordre de ces 260 tirages), et tu cherches à savoir si les valeurs extrêmes sont atypiques.

Si tu sais que la salle de cinéma ne peut pas accueillir plus de 160 personnes, alors oui, 162 entrées, c'est une valeur atypique. A première lecture,sur les chiffres que tu donnes, c'est le seul critère qui pourrait jouer dans la balance. Les 2 valeurs en question semblent quand même très proches de la moyenne !

Tu peux calculer la moyenne et l'écart-type de tes 260 valeurs, et voir si ces 2 valeurs sont anormalement éloignées de la moyenne.
Cet article Wikipédia me paraît pas mal : détection données aberrantes
Tu calcules M=Moyenne, E=Ecart-type , puis N= (162-M)/E
Plus ce nombre N est grand, plus la valeur 162 est suspecte. Et idem pour l'autre valeur. L'article Wikipédia donne des repères pour analyser ce nombre.

PS : tes chiffres correspondent à la période de septembre 2016 à septembre 2017, uniquement les jours de semaine. Ca ne fait donc pas 365 jours, mais plutôt 260..

gerard0 · January 2019

En complément :

Supprimer les valeurs extrêmes est une tentation pour le statisticien, mais fausse la statistique si ce n'est pas pour une vraie raison (extra-statistique). Il existe cependant des cas où c'est fait systématiquement, par exemple la notation des patineurs dans les jurys internationaux, où supprimer la plus basse et la plus haute note évite quelques "magouilles".

Cordialement.

NB : Les chiffres que tu donnes révèlent une exceptionnelle stabilité du public dans ce cinéma ! Mais sans doute sont-ils fictifs ...

Truon · January 2019

Bonjour,

Merci pour vos réponses.

Pour clarifier ma question, je vais reformuler celle-ci en répondant à vos commentaires :

@gerard0 Tu écris "Mais de là à parler de "la probabilité que le jour 48, 141 personnes fréquentent le cinéma à partir des autres données" ... je ne vois même pas ce que ça peut vouloir dire. Le nombre de personnes le jour 48 n'est pas un nombre aléatoire."

Je suis d'accord avec toi...Peut-être devrions-nous parler de la probabilité que 141 personnes fréquentent la salle de cinéma sans préciser le jour 48 ? Dans ce cas, comment calculer cette probabilité à partir des autres données ?

Je me dis que toutes les données disponibles devraient permettre d'établir la loi de distribution du nombre de personnes fréquentant le cinéma non ? A partir de cette loi de distribution, peut-on en déduire P(147) ? Les quelques chiffres donnés ne sont pas fictifs et ont été mesurés à l'époque par une stagiaire.

@lourrran : "Tu peux calculer la moyenne et l'écart-type de tes 260 valeurs, et voir si ces 2 valeurs sont anormalement éloignées de la moyenne. Cet article Wikipédia me paraît pas mal : détection données aberrantes. Tu calcules M=Moyenne, E=Ecart-type , puis N= (162-M)/E
Plus ce nombre N est grand, plus la valeur 162 est suspecte. Et idem pour l'autre valeur. L'article Wikipédia donne des repères pour analyser ce nombre"

Je connais cette méthode mais elle suppose que la loi mise en jeu est une loi normale afin de calculer la probabilité d'obtenir la valeur N ou P(N) ? Sinon comment calculer P(N) dans le cas où la loi est inconnue ?

gerard0 · January 2019

"Dans ce cas, comment calculer cette probabilité à partir des autres données ?"

Si c'est la probabilité qu'il y ait 141 personnes un jour pris au hasard parmi ceux référencés, c'est simplement la fréquence de 141 parmi les valeurs (nombre de cas favorables/nombre de cas possibles). Mais parler de probabilité ne sert pas à grand chose, non ? Quel est ton but ? si c'est toujours de savoir si c'est "normal" ou pas, ce n'est pas une question de statistiques. C'est arrivé, voilà tout !

Cordialement.

Truon · January 2019

Bonjour gerard,

Oui l'objectif est de détecter des valeurs atypiques un ou deux ans après. Le propriétaire de la salle de cinéma souhaite en effet identifier les fréquentations anormales (trop faibles ou trop élevées) entre 2016 et 2017. En moyenne, il a calculé sur 260 jours que la fréquentation moyenne de sa salle est de 150 personnes. Certains jours, il y a eu 155 personnes. On cherche à savoir si 155 est significativement plus élevé que 150 (auquel cas on a une fréquentation inhabituellement élevée) ou pas.

Dans le cas extrême où la fréquentation est de 250 personnes, il est clair que la fréquentation est inhabituellement élevée par rapport à la fréquentation moyenne mais dans les cas où la fréquentation est de 155 il est difficile de conclure...

Il existe des méthodes pour savoir si la différence est significative (méthodes utilisées lorsque'on cherche des valeurs aberrantes dans une série de mesure) mais on suppose systématiquement une loi normale...Ici on ne connait pas la loi d'où la difficulté pour moi.

Chalk · January 2019

Tu peux estimer la loi empirique, mais ça demande suffisamment de données sinon les résultats seront trop instables.

Tu peux aussi estimer la loi par régression non paramétrique https://fr.wikipedia.org/wiki/Estimation_par_noyau . Ça permet de compenser un nombre moins important de données, mais à nouveau pas de miracle, c'est très dépendant des hyper-paramètres choisis.

Tu peux aussi regarder visuellement tes données et voir si ça ressemble à une famille de lois connue (ou une autre famille paramétrée de ton choix), et dans ce cas estimer les paramètres de cette loi par maximum de vraisemblance. [small]Tu peux même ajouter un a priori sur les paramètres de ta loi et faire de l'inférence bayésienne si le but c'est de faire "savant".[/small]

Une fois que tu as la loi, tu peux calculer des probabilités et voir si une valeur a une probabilité significativement plus faible que la valeur moyenne.

Mais si c'est pour un cas réel je ne vois pas l'intérêt de tout ça, une analyse visuelle marchera aussi bien sans se prendre la tête. Et franchement, qu'est-ce que ça change qu'il y ait 5 personnes de plus dans un cinéma ? C'est un écart tellement faible par rapport aux imprécisions du modèle.

[Activation du lien. AD]

gerard0 · January 2019

Dans les salles de cinéma que je fréquente, la fréquentation va (en pourcentage du nombre de places) de 1% à 100 %; alors cette variation de 5 sur 150 en moyenne est ridicule !!
Et il y a d'autres moyen de prévoir (météo, dates exceptionnelles comme le 24/12,...).

Enfin, un rappel : "significativement" est en rapport avec un test sur un échantillon représentatif(=pris au hasard) dans une population. En aucun cas la liste des nombres de présents au cours d'une année n'est un échantillon représentatif de la présence (*).

Cordialement.

(*) sauf pour cette année, mais pas besoin d'échantillon puisqu'on sait tout.

Félix · January 2019

Oui, avec une dispersion aussi faible, on a envie de dire que la stagiaire a bidonné les chiffres et a fortement manqué d'imagination. L'exploitant doit avoir une idée des extrêmes avec les recettes, qui doivent sérieusement varier selon le succès global du film, non ?

Truon · January 2019

Merci à tous pour vos réponses.

Je ne crois pas que la stagiaire ait trafiqué les mesures... Il s'agit d'une salle de cinéma destinée aux enfants et personnes âgées et celle-ci est pleine quasiment tous les jours notamment quand la salle se transforme en théâtre.

Cependant, j'ai d'autres interrogations :

1) Le nombre de personnes fréquentant une salle de cinéma par jour peut-il être considéré comme une variable aléatoire ?

2) Le théorème central limite dit qu'une somme de variables aléatoires indépendantes converge en loi vers la loi normale.

Pourtant la loi normale semble apparaître dans beaucoup de domaines alors même qu'il n'y a pas de sommes de variables aléatoires mises en jeu (lorsque je répète une mesure de quelque chose, les résultats se distribuent selon une loi normale. Pourquoi ? Où est la somme de variables aléatoires qui justifie l'application du théorème central limite ?

3) Si le nombre de jours est suffisant, la distribution correspondante est-elle une loi normale ? Peut-on invoquer le théorème central limite pour justifier que cette loi est normale ?

Chalk · January 2019

1) Tu peux considérer ce que tu veux comme une variable aléatoire. Tu auras alors un modèle qui colle plus ou moins à la réalité. Ainsi tu peux considérer le nombre de personnes fréquentant la salle comme une fonction déterministe du jour de l'année, comme une variable aléatoire, comme un process stochastique indexé par les jours, etc. A toi de voir quelle complexité du modèle tu t'accordes, à quel point le modèle colle à la réalité, et comment tu veux te servir du modèle, dans quel but.

2) Le théorème central limite ne dit pas cela, il dit que la moyenne renormalisée converge vers une loi normale en un certain sens.

Truon a écrit:

lorsque je répète une mesure de quelque chose, les résultats se distribuent selon une loi normale

Pas toujours ! Mais effectivement on modélise parfois les erreurs d'un instrument de mesure par une loi normale. On justifie cela en disant que les erreurs de mesure viennent de plein de phénomènes aléatoires indépendants qui s’additionnent, mais ça ne suffit pas à remplir les conditions du TCL.

3) Non, il n'y a aucune raison ici que le nombre de personnes suivent une loi normale. Déjà parce que la loi normale est absolument continue ... Or il n'y a que rarement 150,47 personnes qui vont au cinéma. En revanche et comme je l'ai dit, tu peux regarder les données et voir si ça correspond à une loi que tu connais, puis estimer ces paramètres. C'est un modèle. Il y a aussi des tests de normalité.

gerard0 · January 2019

Je complète :

1) C'est une variable statistique. A priori, les gens ne vont pas au cinéma aléatoirement.
2) Des formes plus élaborées du TCL permettent de comprendre pourquoi de nombreuses situations où le résultat final est précisé par la somme de divers effets aléatoires et de même ordre de grandeur se modélisent bien par une loi Normale. Cependant, il existe de nombreuses mesures qui ne sont pas de ce type (par exemple, les débits des rivières; ou les mesures d'extremums). Et ça n'a de sens que si les résultats possibles sont nombreux : Il ne viendrait à l'esprit de personne de modéliser le nombre de buts à chaque match d'une équipe de foot par une loi Normale.
3) Si la salle a 162 places et est généralement bien remplie, les valeurs fréquentes seront en gros entre 150 et 162, ce qui ne correspond pas à une répartition gaussienne, même très approximative.

Une dernière remarque : A quoi peut servir de faire ce genre de réflexion, alors qu'on en saura plus en analysant les dates où il y a eu beaucoup de monde et celles où il y en a eu peu ?? Pourquoi faire des calculs savants inutiles là où une vraie réflexion concrète est utile ? les calculs statistiques ne font pas des miracles.

Cordialement.

Événements anormaux

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 11