Un peu perdu dans l'application pratique

Bonjour à tous, j'ai un peu parcouru votre forum et je le trouve très sympathique :)
Je viens vous voir car je débute en Statistique (du moins en statistiques "concrètes") ^^
Je suis en Master de Statistique et j'ai beau avoir des connaissances théoriques, j'ai du mal à les mettre en pratique...

Voilà mon problème :
J'ai une liste de personnes (environ 1000) pour chaque mois d'un trimestre (donc 3 listes avec plus ou moins les meme personnes) fréquentant un certain lieu avec leur nombre de fréquentation mensuel.
Il me faut déterminer les personnes qui viennent beaucoup plus souvent que les autres.. Je n'ai aucune idée de quel test effectuer... Je ne sais même pas si dans un tel cas on peut appliquer des hypothèses de normalité.. A vrai dire je ne comprends d'ailleurs pas non plus très bien quoi qualifier de variable ici, la fréquentation d'une personne ? Dans ce cas j'aurais 1, 2 ou 3 valeurs experimentales pour chacun (selon le nombre de mois où la personne vient)...
Tout ceci est peut-être un peu confus, désolé ^^
Demandez-moi si vous voulez d'autres précisions..
Je remercie énormément tout ceux qui consacreront quelques minutes ne serait-ce que pour me lire :)
«1

Réponses

  • Bonjour.

    ta problématique ne relève pas de l'échantillonnage/estimation, mais d'une autre branche, appelée généralement "analyse discriminante".
    L'idée est de faire apparaître dans l'espace des valeurs (Ici à 1000 dimensions) des groupes de points "proches". Ou bien, dans un classement de tes 1000 valeurs suivant un critère donné, des "forts" et des "faibles".
    Comme je n'ai jamais pratiqué ce type de stats, je me contente de généralités. mais il y a évidemment différents critères possibles pour la fréquence : Nombre total (ou moyen) de venues, nombre minimum de venues mensuel (pour éviter le cas de nombreuses venues en un seul mois et aucune les 2 autres, proximité des nombres de venues mensuels (régularité), ...


    Cordialement
  • Bonjour
    Ton tableau se présente-t-il ainsi :
    1ère colonne : les 1000 noms des personnes
    2ème colonne : 1er trimestre : nb de présences de la personne pour le 1er trim
    3ème colonne : 2ème trim : nb de présences de la personne pour le 2ème trim
    4ème colonne : 3ème trimestre : nb de présences de la personne pour le 3ème trim
    5ème colonne totalest 3 précédentes
    ce qui donne :
    Martin 10 15 20 45
    Muller 45 21 32 98

    Tu veux savoir celles qui viennet le plus souvent par trim ou pour les 3 ensembles ,

    je ne vois pas de la place pour des stat il n'y a que compter et trier !
    Cordialement
    Koniev
  • Merci pour vos réponses :)

    Koniev, j'ai déjà trouvé les personnes qui sont les plus souvent là ou celles qui sont régulières etc... en triant grace à excel.. Le souci est que j'ai besoin de contenu statistique pour mon rapport.. :D
    J'aimerais donc savoir s'il existe des tests ou autres statistiques qui traduisent ces résultats avec éventuellement plus ou moins de fiabilité... C'est ce que semble supposer Gerard.. Je vais tenter d'approfondir un peu la question de ces analyses discriminantes
  • Bonjour
    Si tu as un tableau qui en face de chaque nom s'alignent les nb de présnces en chaque lieu, alors on peut faire des stat.
    Pour chaque lieu chercher la moyene et l'écart-type. Est-ce une loi de Laplace-Gauss ou non, voir les nb qui sortent des 95 %.
    Même recherche pour les nb relativement à un même nom.
    Et pour le total.
    On peut aussi essayer le khi2.
    On a ainsi les reponses aux questions : tel lieu est le plus attirant, telle personne favorise (ou au pluriel) tel ou tel(s) lieu(x)
    Faire jouer l'imagination.
    Cordialement
    Koniev
  • Merci pour cette réponse :)
    J'ai encore une question.. ^^
    Mon tableau se présente sous la forme suivante :
    Nom de la personne, nombre de fréquentation, puis détail des fréquentations avec date et heure
    Y a-t-il un test à faire pour pouvoir tirer des conclusions sur la fréquentation en fonction de l'heure ?...

    Encore merci à vous pour votre patience
  • Bonjour
    Et puis une colonne pour port d'une cravate ou non, lunettes ou non ? je plaisante.
    Ces variantes peuvent être traitées l'une après l'autre : pour chaque lieu, pour chaque personne,...
    Qui trop embrasse ...
    Cordialement
    Koniev
  • Bonjour Arkansas.

    Tu poses mal le problème. Un test ne tire pas de conclusion (Il n'y a pas d'outil miraculeux qui pense à ta place). Mais si tu tires une conclusion possible (hypothèse) de tes données, il sera peut - être possible de valider (un peu) cette conclusion par un test de cette hypothèse (ou de son contraire).
    Donc c'est à toi de faire l'analyse de tes données, avec les outils habituels de la statistique descriptive (représentations, caractéristiques diverses, AFC, ACP, corrélations, iconographie des corrélations, analyse discriminante, modélisation linéaire ou pas, ...).

    Cordialement
  • Merci à vous, vos réponses m'aident à avancer et à me poser les bonnes questions.. Le soucis est que malgré le titre de ma formation (Master de statistique) les outils que je maitrisent sont très très peu nombreux... En réalité en statistique pure je ne connais que la regression linéaire et les modèles Anova..
    Evidement j'ai d'autres notions comme celles d'esperance, variance, estimateurs et je peux faire pas mal de calcul avec une loi donnée...
    Mais en dehors de ça, je ne connais pas grand chose de la liste donnée dans ta paranthèse Gerard, elle m'est donc utile ^^ Je vais faire quelques recherches là-dessus
  • Dites, encore une question pour vous :)
    Je constate clairement que l'heure à une influence sur le nombre de fréquentations d'un lieu..
    Cependant, l'heure n'est pas une donnée numérique..Je m'explique, pour calculr un coefficient de corrélation par exemple, il me faudrait l'ecart type de la variable qui prend comme "valeurs" les heures de la journée.. Je m'excuse par avance si cela parait absurde (^^), j'essaie de comprendre clairement : Peut-on calculer la variance d'une variable qui prend comme valeurs des heures ?
    Dois-je considérer cette variable simplement sans unité, prenant les valeurs 8, 9, 10, ..., 17 ??
    Si cela est possible, est-il alors possible de considérer ma variable comme étant des intervalles de longueurs 1h ??..
    Tout ceci est assez confus encore pour moi.
    Merci à vous de m'éclairer
  • Bonjour.

    "l'heure n'est pas une donnée numérique." ??? mais si, c'est un caractère tout à fait quantitatif. Il n'y a aucun problème, autre que l'interprétation des moyennes et variances. Pour cette interprétation, il est effectivement préférable de considérer que 12 h symbolise en fait l'intervalle de temps [12h,13h[, si le relevé des heures d'arrivée est bien fait ainsi. Donc que la "valeur" de 12h est en fait (convention habituelle) 12h 30.
    Tu peux aussi travailler comme avec des intervalles, en prenant les centres de classes, ce qui sera plus efficace.
    Par contre, s'il s'agit de classer les valeurs, ça n'a plus d'importance.

    Cordialement
  • Merci de répondre aussi rapidement :)
    J'ai effectivement le nombre de fréquentation entre 8h et 9h, entre 9h et 10h etc...
    J'ai donc un tableau de la forme :
    8,5 : 150 (8,5 = 8h30)
    9,5 : 211
    10,5 : 241
    ...


    Le coefficient de corrélation détermine s'il existe un rapport linéaire entre deux variables vrai ? Peut-on également déterminer un rapport entre deux variables qui soit non linéaire.. Par exemple ma fréquentation selon le jour de la semaine suit une courbe qui est la même (quasiment) quelle que soit la semaine choisie, puis-je déterminer une équation de cette courbe et donc le rapport qui existe entre jour et fréquentation ?
  • Oui.

    Je n'aurai pas le temps ce soir, ni probablement demain. Mais tu peux regarder sur internet les mots ajustement, fitage (ou fittage, c'est du franglais), moindres carrés.
    Si tes courbes sont à peu près les mêmes d'une semaine à l'autre, il y a corrélation linéaire forte entre les semaines.

    Cordialement
  • Merci encore une fois ^^
    Je ne sais pas pourquoi, mais j'avais l'impression que les moindres carrés ne servaient que dans le cas de regressions linéaires.. Peut-être parce que c'est les seuls cas que nous avons vu en cours..
    Toujours est-il que je pense être sur une piste et j'aimerais beaucoup ne pas m'y engouffrer si elle est fausse car je vais avoir beaucoup de calculs longs et laborieux tout le long de ce chemin qui mène je l'espère à un résultat correct..
    Je souhaite toujours trouver une équation de ma fonction (ou l'équation d'une courbe qui s'en rapproche)
    Grâce aux courbes de tendances d'excel je trouve que ma fonction est très proche d'une courbe polynomiale de degré 6 (peut-être qu'avec un plus haut degré on s'en rapprocherait encore plus, mais excel ne va que jusqu'à 6).
    Je fais donc la supposition suivante : Ma courbe représente une fonction d'équation :
    f(x) = B6.x^6 + B5.x^5 + B4.x^4 + B3.x^3 + B2.x^2 + B1.x + B0

    Je cherche les coefficients Bj que j'obtiens en minimisant la somme des [yi - f(xi)]²

    J'obtiens un systeme matricielle qui s'écrit M*B = S
    où M est une matrice 7x7...

    J'en suis donc là.. Pour résoudre ce système je ne vois que le pivot de Gauss... ce qui m'entraine dans de faramineux calculs et c'est la raison qui me pousse à demander si je suis bien sur la bonne voie avant de perdre plusieurs jours ^^
    Encore et toujours... Merci :)
  • Oui, tu es sur une bonne piste.

    Un logiciel statistique un peu "costaud" te ferait le travail. Si tu n'as pas, tu peux regarder le gratuit R. Et pour seulement traiter tes calculs matriciels, le gratuit Scilab est très adapté.

    As-tu essayé des régressions exponentielles ou logistiques ?

    Cordialement.
  • Voici l'allure de ma courbe, cela pourra certainement être utile :)

    090625025617135875.jpg

    Et ici avec la courbe de tendance polynomiale d'ordre 6

    090625030038929832.jpg
  • Pas très engageant. Peut être séparer les deux périodes.
    Peux-tu la faire en plus lisible ?
  • Pas engageant c'est sûr.. C'est par hasard que en testant les courbes de tendances que je me suis aperçu de la similitude avec une courbe polynomiale..
    Cependant j'ai des courbes de fréquentation sur 3 mois et elles ont toute la meme apparence.. Comme c'est justement la frequentation en fonction de l'horaire mon objectif principal, j'essaie d'interpréter ces graphiques au mieux..
  • Bonsoir.

    Dans ce cas-là, je conseillerais plutôt d'utiliser comme modèle la liste des moyennes heure par heure (Pour 8h, la moyenne des fréquentations à 8h, pour 9h la moyenne des fréquentations à 9h, etc.). La mise en place d'un modèle compliqué continu pour une série quasi discrète ne se justifie que si le modèle simplifie la question.
    Tu pourras alors compléter par une analyse de dispersion (heure par heure, l'écart type par exemple), et même par une étude des écarts suivant la date (valeur - moyenne) pour voir s'il y a des variations hebdomadaires, mensuelles, une évolution globale (si les écarts passent de négatif au début à positif à la fin, c'est que la fréquentation augmente), etc.
    Éventuellement, on peut même utiliser les outils des chroniques (séries chronologiques) : Tendance, variations saisonnières, correction es variation saisonnières).

    Cordialement
  • Décidément, heureusement que tu es là.. Il n'y a malheureusement aucun statisticien autour de moi et donc personne qui ne puisse m'aider dans mes débuts..

    Par moyenne heure par heure tu entends "moyenne sur les jours pour une heure ??"
    Ex :Lundi 9h : 10personnes, Mardi 9h : 12, Jeudi 9h : 8 ==> Moyenne 9h = 10 pour la semaine 1 etc...
    Et on comparerait les moyennes pour chaque semaine ? ou alors on compare la moyenne de 8h avec celle de 9h, etc... Ce dernier cas me donnera une courbe similiraire à celle du dessusil me semble..(elle ne représente pas la moyenne mais la somme des frequentation quotidienne à telle heure sur un mois...y mettre les moyennes ne serait que diviser l'ordonné par le nombre de jour, ce qui ne changera pas l'allure)

    Ainsi je pense qu'il me faudrait plutot comparer la frequentation à la meme heure suivant différentes semaines.. Mais ce qui m'intéresse principalement c'est de comparer la fréquentation selon l'heure pour une meme période (journée ou semaine)..

    Recommencerais-je à être confus ??
  • En fait,

    j'avais pensé à une moyenne sur "tous les lundis à 9h" (sur les trois mois, ça en fait environ 13, la moyenne a un sens). Mais tu peux aussi faire "tous les jours à 9h", sur une semaine, sur un mois, sur trois mois.
    C'est toi qui as les données, c'est à toi de voir ce que tu veux examiner. Mais pour travailler sur la série chronologique des fréquentations, il est intéressant de mettre les 90 jours (environ) des trois mois, de décider quelle fréquence (journalière, hebdomadaire ou mensuelle) peut expliquer les variations et de mettre en place une analyse de périodicité. Va voir des documents sur les séries chronologiques.

    Tu n'es pas confus, il te manque simplement d'aller lire la littérature sur le sujet. A la base (et elle te suffira), c'est des stats très simples.

    Cordialement
  • Merci pour tous ces précieux conseils..
    Je me suis lancé dans la lecture de cours sur les séries chronologiques.. C'est peut-être des stats très "simples" quand on a l'habitude mais il y a tout de même beaucoup de choses qui entrent en compte et il faut tout de même des notions de probabilité pour tout comprendre :p
    Je pense qu'avec ça je devrais pouvoir exploiter mes données..
    J'avance autant que possible et je reviens par ici.. Je pense que je n'ai pas fini de poser des questions ^^
    En tout cas ce forum est vraiment agréable et on y obtient de bonnes réponses très rapidement (y) Chapeau !

    Et merci Gerard, super boulot
  • Ah, tu es parti sur des documents plus complexes que nécessaire.
    Un cours de première année d'AES ou de Science éco de statistiques descriptives suffit pour comprendre. Après, si on tient à valider les modèles et résultats, les outils probabilistes deviennent nécessaire. Mais pas besoin d'avoir une formation de quant pour faire une analyse comme la tienne.
    D'ailleurs, les modélisations à base de loi Normale sont assez peu sérieuses dans la plupart des cas (mais on sait faire les calculs...).

    Cordialement
  • Les modélisations à base de loi normale... A voir mes graphiques, la fréquentation ne suit pas une loi normale.. ^^ Pourquoi parles-tu de ça ?

    Je lis un cours d'un institut de Statistique Belge que je trouve bien fait..
    D'ailleurs je préfererais qu'il y ait un contenu un peu plus sérieux et complexe dans mes analyses car mon rapport en sera d'autant mieux noté.. Je vais essayé de modéliser ce que j'ai avec des séries chronologiques pour voir si je peux prévoir la fréquentation pour tel jour à telle heure. Ce serait idéal...
    Mais bon, mon stage ne durera pas étenellement.. le temps presse ^^ Il me faut aller dans la bonne direction :D
  • Askanas a écrit:
    Les modélisations à base de loi normale... A voir mes graphiques, la fréquentation ne suit pas une loi normale.. ^^ Pourquoi parles-tu de ça ?
    Tout simplement parce que les modèles utilisent très (trop ?) fréquemment l'hypothèse que telle ou telle variable du modèle est gaussienne. Il est vrai que sans ça, on ne va pas loin...

    Cordialement
  • En résumé, j'ai intérêt à trouver une variable gaussienne et plus vite que ça... Bon je vais jeter un oeil ^^
  • Non, non,

    je me suis mal fait comprendre. On n'en a pas besoin pour étudier des chroniques. Et si tu as une périodicité hebdomadaire, la taille des échantillons sur trois mois (13 semaines) permettra d'utiliser l'approximation gaussienne sans trop trahir la réalité.

    Cordialement.

    NB : On ne trouve pas les variables gaussiennes comme ça, elles n'apparaissent pas dans les données, mais dans l'analyse des causes de variation : Des causes nombreuses et à peu près du même ordre de grandeur. Donc généralement ce qui reste quand on a mis dans le modèle les causes de variation principales.
  • ^^ C'est vrai qu'avec un echantillon assez grand on tend vers une gaussienne.... pffiou... j'en oublie mes cours :D
  • Bonjour
    Avec le logiciel MINITAB ou peut croiser les facteurs ce qui permet de voir les cas qui associant deux facteurs sont les plus afficaces.
    . Pourrais-tu m'envoyer quelques lignes de ton tableau. J'ai plus de facilité à raisonner sur des chiffres que sur des mots.
    Cordialement
    Koniev
  • Bon bon.. me revoilà ^^...
    Gerard, tu m'as suggéré de me renseigner sur les statistiques "prédictives" et les séries chronologiques ce que j'ai fait et je pense que cela va effectivement dans le sens de ce que je cherche à faire.
    J'ai maintenant un soucis avec l'application de méthodes sur ces séries chronologiques. Je poste mon graphique ici, dites moi si vous trouver q tel que le trend en t soit linéaire sur [t-q ; t+q] ^^
    NB : Le trend est une fonction définit par un nombre fini de paramètres (généralement une fonction lisse du temps).. Si je comprends bien, le trend semble représenter la tendance moyenne de variation..

    Merci beaucoup

    090701030342662245.jpg
  • Jolie courbe.

    Et très "parlante".
    D'abord, elle a manifestement une composante mensuelle : les débuts de mois donnent des valeurs plus élevées. Ensuite, il y a un trend décroissant manifeste (mais il ne faut pas se laisser abuser par les variations momentanées).

    Donc le travail est simple : Déterminer l'équation de la droite d'ajustement linéaire C' = aD+b, où C est le nombre de clients, C' le nombre de clients estimés par le modèle trend et D la date.
    En soustrayant le modèle linéaire, calculer les écarts E = C - C' = C-aD-b, et en faire une moyenne mensuelle V(j) ( pour les premiers jours V(1) est la moyenne des écarts des trois premiers jours de chacun des trois mois, V(2) la moyenne des deuxièmes jours des trois mois, etc. Pas de soucis si le nombre de jours n'est pas le même, c'est de l'approximatif). En déduire le nouveau modèle C" = aD + b + V(J). Regarder la courbe des écarts C - C", et recommencer avec les semaines (là, il y en a un nombre entier) pour rajouter au modèle des variations hebdomadaires.
    On peut tester ensuite les écarts résiduels pour vérifier s'ils sont apparemment aléatoires. Le plus simple est de les représenter et de chercher si le nuage de points a une forme particulière, indice d'un trend caché jusqu'ici.

    Bon travail !
  • Merci pour ces explications claires et détaillées. Cela ne m'empechera pas d'avoir encore des questions (et oui, les mathématiques sont sources d'innombrables questions ^^) mais j'y vois bien plus clair grâce à ton aide.
  • Voilà un peu ce que ça donne :

    1ère étape : Ajustement linéaire de la forme C'(x) = aD + b (c'est le trend qu'on trouve ??)

    090702100722646733.jpg

    2eme étape : Ecarts entre le nombre de Clients observé et C'(x) (le trend ??)

    090702100956813535.jpg

    3eme étape : Ajustement avec la moyenne des Ecarts des i-èmes jours de chaque mois

    090702101057893105.jpg

    Ici il me semble qu'on remarque clairement une période mensuelle.. Ne pourrait-on pas même distinguer deux périodes ?? (début et fin de mois)

    4eme étape : Ecart entre le nombre de clients observé et C''(x) (ajustement quotidien)

    090702101439143160.jpg

    Ensuite j'ai recalculé une fonction C"' (tierce) en tenant compte de cet ajustement hebdomadaire mais la courbe est quasiment la meme que celle de C''(x)... Cela veut-il dire qu'il n'y a pas ou très peu de variations hebdomadaires ?
    Peut-on encore affiner ??

    090702101734683036.jpg

    Merci Gerard pour l'aide précieuse qui m'a fait avancer

    [Edit] : Dois-je maintenant étudier la saisonnalité du phénomène ?? ^^
    Je pense aussi devoir utiliser un schéma multiplicatif pour la suite (étude des résidus) puisque ma saisonnalité semble tenir compte du trend (c'est du moins ce que j'ai cru comprendre) donc du type Yt = C'(t) × St × (1 + εt)
    Faut-il dans ce cas forcément transformer les données par log pour obtenir un schéma additif (plus simple ??)
    Voici au cas où le graph avec les valeurs de la fréquentation transformées par Ln :

    090702024011358132.jpg

    Encore merci
  • Bonsoir.

    Au vu de la courbe de C", il semble difficile de faire mieux. Il ne semble pas y avoir de cycle hebdomadaire (Cycle = effet d'une périodicité). La courbe de C" est assez chaotique, et montre surtout une grande variabilité des fréquentations, une forte volatilité comme disent les financiers.
    Ici, le schéma multiplicatif ne m'inspire pas : Je ne vois pas de quel point de vue on pourrait le justifier. D'autant que le trend, la tendance, C' est seulement légèrement décroissant (bizarrement, je l'attendais croissant).
    On est là aux limites de l'analyse statistique : S'il y a une variation saisonnière, ici perturbée, de plus, par l'effet "jour de semaine", il faudrait des données plus importantes (6 mois, mieux : un an) pour avoir un résultat probant.

    Cordialement
  • Je dois malheureusement (pour des raisons de temps) me contenter de données sur un trimestre mais il semble que les trimestres soient ainsi répétitifs (il y aurait un cycle trimestriel), donc, en juillet, on repartirait comme en avril pour à nouveau décroitre légèrement en aout et septembre et ainsi de suite.
    Penses-tu qu'on puisse supposer un modèle additif alors ??
    Ai-je éliminer les saisonnalités journalières dans C'' ?? où C'' représente-t-il justement les saisonnalités journalières ?? :)
  • Effectivement, un cycle additif semble suffisant (changer de modèle apporte-t-il quelque chose ?).
    Comme je l'ai lu, C" est un modèle intégrant les cycles mensuels.
    Pour les "saisonnalités journalières", si c'est bien l'idée d'un cycle hebdomadaire dont tu parles, il semble que ce n'est pas pertinent.
    Mais c'est toi qui as les données...

    Cordialement
  • Autre question (oui oui encore :D )

    J'ai donc soustrait la valeur de la tendance à celles de ma série.
    Je veux maintenant encore soustraire la moyenne selon le meme jour de chaque mois. Mon soucis est que le 1er jour d'avril est un mercredi alors que le 1er jour de mai est un samedi.. J'ai alors 2 possibilités : Faire la moyenne entre le j-ème jour de chaque mois (donc j'aurais des moyennes entre fréquentation d'un mercredi, d'un samedi et d'un mardi par exemple) OU faire une moyenne selon le jour : la moyenne du 1er mardi de chaque mois, du 1er mercredi de chaque mois, etc...

    Voici les courbes obtenues par les 2 méthodes : En bleue, celle obtenue par la seconde méthode citées, en tenant donc compte des jours.. On remarque qu'il y a une grande différence entre ces méthodes.. Y en a-t-il une "plus correcte" ou cela dépend-it encore une fois de ce qu'on veut faire ?^^^

    090703101130658667.jpg


    Voici les courbes CVS (en ayant donc retiré la saisonnalité) avec ajustement en tenant compte du jour en bleue et selon l'autre méthode en rose

    090703103546482344.jpg
  • Askanas,

    si j'ai bien lu, l'établissement est fermé dimanche et lundi. Il me semble que, même si les deux méthodes se tiennent (à condition de parler de "jour ouvré" pour la première), la deuxième est plus saine.
    Ici tu tombes sur ce qui embête les fabricants de calendrier, les historiens et autres astronomes : l'abscence de coïncidence entre semaines et mois (sans parler des années !). Toutes les méthodes sont "un peu mauvaises". mais tu peux remarquer que, dans les deux cas, tes courbes sont assez chaotiques.

    Une autre technique serait possible, le lissage, mais ici c'est assez difficile car on ne peut pas considérer que le mardi est le jour suivant le samedi. Par contre, le total hebdomadaire peut donner une courbe différente, plus lisible. Ou pas !

    Cordialement.
  • Que de difficultés pour un premier stage, mais il faut bien commencer :D
    Bon allons donc voir ce que disent les semaines.. ^^

    Bof, je pense qu'il n'y a pas assez de données pour que cela soit concluant.. :s

    090703044909351564.jpg
  • Nouvelle tentative :)

    Je décide de tenter une analyse suivant le modèle de Buys-Ballot
    Pb : Peut-on appliquer cette méthode à mon cas..

    J'effectue donc une regression linéaire, puis je trouve la saisonnalité rigoureusement périodique et il me reste les résidus :

    La tendance est la même qu'au dessus.

    Voici la saisonnalité rigoureusement périodique

    090704111222626596.jpg

    Et enfin les résidus (que le modèle de Buys-Ballot suppose gaussiens...)

    090704111437627734.jpg


    Mes questions :
    - Savez-vous si ce modèle est applicable ?
    - Peut-on supposer les résidus gaussiens malgré l'allure de la courbe ?
    - Si j'ai avec ce modèle les expressions des Variances des différents estimateurs en fonction de Sigma² (où Sigma² est la variance des résidus)... Peut-on "estimer" les variances à l'aide d'un estimateur de Sigma² ?? (estimer grâce à un estimateur, quelle jolie mise en abime :p)
  • Bonjour.

    je ne connais pas ce modèle, difficile de conseiller. je suis aussi surpris que les résidus soient tous largement positifs.
    Supposer que se superpose à un modèle un bruit gaussien me paraît ici assez léger : On a de bonnes raisons de penser que certaines affluences sont exceptionnelles (pour un bistrot : mariage, fête de la musique, et inversement boycott ou autres).

    Cordialement
  • Merci tout de même..
    Ici il n'y a pas réellement d'évènement "exceptionnelle", on sait juste que les mardis et les débuts de mois sont les plus fréquentés :D
    Je vais en parler avec mes professeurs, on en saura peut-etre plus la semaine prochaine :D
  • Euh, encore une toute petite question ^^

    Avec tout ce que vous avez vu plus haut (mes courbes, mes données...) voyez-vous une possibilité d'effectuer une Analyse de la variance (ANOVA) ?? Car c'est quasiment la seule chose qu'on ait vu en cours (mais comme trop souvent en cours, on ne voit que des cas parfait où tout suit les lois qu'il faut bien comme il faut...) Peut-on appliquer ce genre de chose ici (bien que je ne vois rien qui suive une loi normale) ?

    Merci
  • Bonsoir.

    Une Anova sert à vérifier que les différences de moyennes de différents échantillons sont bien révélatrices d'une différence dans la collecte des données. Où vois-tu différents échantillons ?

    Cordialement.

    NB : Faire des statistiques, ce n'est pas appliquer les méthodes du cours, c'est analyser les données, et, en fonction de ce qu'on veut mettre en évidence (*) utiliser l'outil adapté à la question.
    (*) Encore faut-il qu'il y ait une évidence à mettre.
  • Je me suis mal exprimé :) Ou plutôt j'ai oublié une précision ^^
    J'analyse la fréquentation de 2 lieux distincts, tous les éléments ci-dessus correspondent à un même lieu, mais j'ai également des chiffres pour un 2eme lieux (les courbes de fréqentation quotidienne se ressemble beaucoup d'ailleurs à cela près que le 2eme lieux est toujours plus fréquenté donc on a environ la même courbe mais translaté un peu plus "haut" :D )

    Ma question est donc, peut-on faire une ANOVA entre les echantillons Lieu1 et Lieu2 ?

    Je sais bien qu'en statistique on est sensé analyser et trouver des choses en fonction des données et non tenter d'appliquer telle méthode coute que coute.. Seulement ça c'est en statistique... Pour ma part, je ne dois pas considérer la statistique (et c'est malheureux) mais plutôt ce qu'on attend de moi.. :(
  • Ok, Askanas.

    Effectivement, tu peux traiter tes deux jeux de données comme deux échantillons. Mais le résultat est évident d'après tes dires. Donc si tu as besoin de manipuler des outils du cours, pourquoi pas retrouver le résultat : les fréquentations sont différentes. Ou ne pas le retrouver à cause de la dispersion !
    Si les courbes se ressemblent beaucoup, tu dois pouvoir faire une analyse plus évidente, par régression linéaire, qui montrera probablement plus nettement que la fréquentation est plus forte dans le deuxième lieu : Modèle F2 = a F1 + b avec a et b positifs et un bon coefficient de corrélation (les F sont les fréquentations).

    Cordialement
  • Hello, me revoilà :)

    J'ai du saisir pas mal de données d'où mon absence ^^
    Si vous vous souvenez encore de mon problème (surtout Gerard xD), voici la suite ^^
    J'ai effectuer une regression comme Gerard me l'a conseillée et je trouve (en reprenant son écriture) F1 = a*F2 + b où a = 1,3 et b = 33
    Le coefficient de correlation entre mes deux séries de fréquentation est 0,886 donc plutôt proche de 1.. Que signifie cela concrètement ? Qu'effectivement mes deux séries sont liées ?? Car en réalité, je crois plutôt que mes deux séries sont liées à la date et que c'est ce 3eme facteur qui relie mes 2 séries de données.. Peut-on faire ressortir cela ?
    Merci.
  • Bonjour.

    Pour des valeurs d'aussi forte dispersion, ce coefficient de corrélation est extrêmement élevé. En laissant tomber le 33 (probablement non significatif), on voit que le deuxième établissement reçoit généralement un tiers de clients en plus que le premier.
    je crois plutôt que mes deux séries sont liées à la date
    C'est possible, mais comme il sera difficile de faire une corrélation avec la date... C'est d'ailleurs ce que tu as essayé de faire au début, et ça n'a pas été convaincant.
    Le bilan semble être : régulièrement un tiers de plus pour le deuxième établissement, avec un vague indice de liaison temporelle (débuts de mois et mardis - au fait, pourquoi les mardis ? Y a-t-il un événement qui le justifie ?).

    Cordialement
  • les mardis sont tout simplement les débuts de semaine :D et c'est effectivement la raison des "mini pics".
    J'ai vaguement entendu parler de Levene et de Kruskall-Wallis.. Je vais approfondir ça :)

    Bien, après avoir lu plusieurs pages sur le sujet, j'ai effectué un test de Kruskall-Wallis avec mes deux séries de données (avant de comprendre que ce test s'utilise en principe llorsqu'on a au moins 3 séries de données et qu'on le remplace par un test de Mann-Whitney sinon), j'obtiens donc ces résultats :
    Chi-deux : 54,90
    Deg de liberté : 1
    P value : 1,268.10^(-13)
    Je sais bien qu'analyser et interpréter ces résultats est ce que je suis sensé faire, mais avant de pouvoir le faire il faut bien l'avoir vu une première fois non ?? Ces résultats sont-ils parlant ?? Je crois avoir compris que la très faible P value est une bonne chose xD

    J'ai ensuite effectué un test de Mann-Whitney. A nouveau je suis confronté à un problème, les tables que je trouve ne vont pas plus loin que 10 ou 12 pour la taille des echantillons, or les miens sont de taille 60. Je suppose alors que ma statistique (centré réduite) tend vers une statistique de loi normale(0,1) mais j'obtiens une valeur Z = 7,449 pour ma statistique de test à comparer avec la table de la loi normale.. qui elle ne dépasse pas les valeurs 4,00 pour Z (et la probabilté vaut alors déjà 1.00 ...)
  • C'est encore moi,
    J'ai voulu effectuer un test de Levene pour comparer mes écarts types..
    J'obtiens comme W (statistique du test de Levene) : 3483. Ce qui fait beaucoup étant donné que je dois comparer ce chiffre avec les valeurs de la table de Fisher (du moins si c'est bien de la loi de Fisher qu'on parle ici : "The significance of W is tested against F(Alpha; k-1; N-k) where F is a quantile of the F test distribution" )
    Est-ce possible de trouver une telle valeur pour la statistique de test et cela veut-il simplement dire que ce test ne s'applique pas ici ou ne donne aucun résultats concluant, ou est-ce forcément une erreur dans ma réalisation du test ?
    Encore et toujours merci pour votre précieuse aide sans laquelle je peine à avancer :)


    NB : En fait c'était une erreur de calcul, finalement la statistique de test obtenue est W = 0,000585 ce qui et bien plus correct ^^
    Cependant, dans la table d'une loi Fisher avec 1 et 118 comme degrés de liberté, la valeur donnée est 3,92.. Certes je suis inférieur à cette valeur avec mon W mais n'est-ce pas louche ?
    Mes degrés de liberté sont 1 et 119 car :
    1 = k-1 où k est le nombre d'echantillon donc 2
    118 = N - k où N est mon nombre total de données (60 pour les 2 séries donc 120)
Connectez-vous ou Inscrivez-vous pour répondre.