Un peu perdu dans l'application pratique

Koniev · July 2009

Bonjour
Très intéressant ton croquis d'avril 09 avec la courbe de degré 6.
On peut peut-être comparer les courbes pour les autres mois : coeff de correl en prenant les coordonnées des extremums ?
Cordialement
Koniev

Askanas · July 2009

Que veux-tu dire ?? Prendre, par exemple, les 2 maximums et les 2 minimum comme données pour chaque mois et calculer le coefficient de correlations entre les mois avec ces données ?? Qu'est-ce que signifierait alors un fort coefficient de corrélation ?
Merci pour ton aide

GERARD à la maison · July 2009

Bonjour Askanas.

Une semaine d'absence, et je trouve des tas de questions :

P value : 1,268.10^(-13)
Je sais bien qu'analyser et interpréter ces résultats est ce que je suis sensé faire, mais avant de pouvoir le faire il faut bien l'avoir vu une première fois non ?? Ces résultats sont-ils parlant ?? Je crois avoir compris que la très faible P value est une bonne chose

Effectivement, si le fait que le test échoue est une bonne chose. Plus clairement : Si ton seuil de risque est r, et que la "p-value" p est inférieure à r, cela signifie que le test a échoué; donc qu'il est raisonnable de rejeter l'hypothèse du test. En effet, il faudrait prendre un risque inférieur à p pour obtenir la réussite au test.

j'obtiens une valeur Z = 7,449 pour ma statistique de test à comparer avec la table de la loi normale.. qui elle ne dépasse pas les valeurs 4,00 pour Z (et la probabilté vaut alors déjà 1.00 ...)

pas de souci, sauf si tu veux travailler avec un risque ultra faible. Pour les valeurs supérieures à 3 ou 4, les tables arrondissent la probabilité cumulée à 1, car on est très proche de 1. Mais ça signifie aussi que la probabilité de dépasser Z est infime, donc que le test est réussi. On ne peut pas rejeter l'hypothèse.

Cependant, dans la table d'une loi Fisher avec 1 et 118 comme degrés de liberté, la valeur donnée est 3,92.. Certes je suis inférieur à cette valeur avec mon W mais n'est-ce pas louche ?

Non, ce n'est pas louche, c'est simplement que le test réussit (On ne peut pas rejeter l'hypothèse H₀).

Enfin deux remarques :
* Je ne donne pas d'interprétation claire de tes résultats de tests, vu que je ne sais pas ce que tu fais.
* Je suis très surpris de "les mardis sont tout simplement les débuts de semaine et c'est effectivement la raison des "mini pics"." ??? Dans de nombreux endroits (boulangeries, coiffeurs, boites de nuit,..) le début de semaine se caractérise plutôt par le désert. Si le mardi est un jour très particulier (comme le lundi matin pour les banques avec l'arrivée des commerçants qui viennent déposer la recette du week end), il fallait l'intégrer dans ton modèle tout de suite. car on ne fait pas de bonnes statistiques en oubliant le réel.

Cordialement

Askanas · July 2009

J'ai toujours de nombreueses questions à poser

Heureusement que tu es revenu pour y répondre

Qu'entends-tu par "intégrer le fait que les mardis soient spéciaux au modèle" ?? Comment faire cela ?

et

J'ai enfin réussi (je crois) à effectuer un test de normalité qui.... valide l'hypothèse que mes données suivent une distribution normale.. Là encore je suis surpris au vu de la courbe de fréquentation quotidienne..
Encore plus surprenant, seulement l'une de mes 2 séries de données suit une loi normale d'après mon test (de Jarque-Bera) et pourtant :

Série A dont le test valide la normalité : Skewness : 0,46 / Kurtosis : 2,40
Série B dont le test rejette la normalité : Skewness : 0,83 / Kurtosis : 3,62

Or on test justement Skewness = 0 et Kurtosis = 3.. J'ai lu à ce sujet qu'on pouvait accepté l'hypothèse de normalité au seuil 0,05 lorsque Skewness est entre -2 et 2 et que (Kurtosis-3) est entre -2 et 2, ce qui est le cas pour A et B mais mon test rejete l'hypothèse pour B.. étrange

Si effectivement j'ai la normalité, alors mes tests non paramétriques restent valables mais sont moins puissants que leurs équivalents paramétriques c'est bien ça ?.. Mais si j'ai la normalité que pour l'une des séries, les tests qui comparent les 2 séries (comme le test de Student) doivent être non paramétriques (donc Mann-Whitney préféré à Student) ??

GERARD à la maison · July 2009

Bonjour

Qu'entends-tu par "intégrer le fait que les mardis soient spéciaux au modèle" ?? Comment faire cela ?

Et bien, par exemple, si tu sais que le mardi la fréquentation est doublée (c'est le genre d'hypothèse assez crédible pour les agence bancaires qui ont surtout des commerçants comme clients), tu divise par deux la fréquentation du mardi, tu construit ton modèle comme précédemment, puis à la fin, tu doubleras la fréquentation du mardi. mais il y a d'autres méthodes possibles, c'est toi qui as les données.

Or on test justement Skewness = 0 et Kurtosis = 3.. J'ai lu à ce sujet qu'on pouvait accepté l'hypothèse de normalité au seuil 0,05 lorsque Skewness est entre -2 et 2 et que (Kurtosis-3) est entre -2 et 2

Oublie vite ce genre de préjugé. Il est évident que cette phrase (que tu as lue, mais dans quel contexte ?) est fausse, car elle ne tient pas compte de la taille des données. Pour un échantillon à 200, avec un skewness à 0,5 ou un kurtosis à 2, l'hypothèse de normalité est rejetée.
Pour tes valeurs, comme je n'ai pas l'effectif, je ne peux pas contrôler, mais s'il y a le même effectif, il est logique que le B soit rejeté, l'asymétrie est très prononcée (0,83, c'est beaucoup, sauf si la série a peu de valeurs).

Si effectivement j'ai la normalité, alors mes tests non paramétriques restent valables mais sont moins puissants que leurs équivalents paramétriques c'est bien ça ?

Pas sûr. Je n'ai pas d'élément pour m'expliquer, mais les méthodes sont suffisamment différentes pour être difficilement comparables.

Mais si j'ai la normalité que pour l'une des séries, les tests qui comparent les 2 séries (comme le test de Student) doivent être non paramétriques (donc Mann-Whitney préféré à Student) ??

Pas obligatoirement, car on peut penser qu'on compare le deuxième échantillon à un échantillon gaussien (le premier - mais l'est-il vraiment ?). Cependant il me semble préférable soit de choisir du non paramétrique, soit de faire du paramétrique "avec précautions", c'est à dire de n'accepter les conclusions que si elles sont nettement tranchées (par exemple, pour un seuil de risque 5%, lorsque la p-value vaut plus de 0,1, ou moins de 0,01).

Enfin :

'ai enfin réussi (je crois) à effectuer un test de normalité qui.... valide l'hypothèse que mes données suivent une distribution normale.. Là encore je suis surpris au vu de la courbe de fréquentation quotidienne..

Non, rien de surprenant, tu n'étudies pas la courbe, mais l'ensemble des ordonnées de ses points (ensemble des chiffres de fréquentation). De plus, le fait que le test ait réussi ne prouve rien sur la Normalité des données (quand un test réussit, la seule conclusion est "on ne peut pas rejeter l'hypothèse H₀". Si quelqu'un te dit qu'il fait Pile à chaque coup à Pile ou face, et qu'en lançant sa pièce il fait Pile, vas-tu le croire ?).

Cordialement

Askanas · July 2009

Comment savoir alors si des données sont normales ?? Il n'y a pas d'autres choix que d'effectuer un test de normalité et si l'hypothèse de normalité n'est pas rejetée, alors on peut supposer que la série suit une distribution normale.. Comment procéder autrement.. ?

J'ai une autre question (et je trouve normal d'avoir des tas de questions au début, on ne peut pas tout savoir non ? ^^) :
Pour la plupart des tests, il faut supposer les deux séries indépendantes. Cela ne me semble pas poser de problèmes puisqu'il s'agit de 2 populations différentes, qui se rendent dans deux lieux différents.
Cependant, je calcule le coefficient de corrélation (de Kendall en l'occurence) entre mes série et trouve 0.8

N'y a-t-il pas la un soucis de cohérence ? Puisqu'indépendance implique non-corrélation...

GERARD à la maison · July 2009

Askanas a écrit:

Comment savoir alors si des données sont normales ?? Il n'y a pas d'autres choix que d'effectuer un test de normalité et si l'hypothèse de normalité n'est pas rejetée, alors on peut supposer que la série suit une distribution normale.. Comment procéder autrement.. ?

Des données (brutes) ne sont jamais "normales", gaussiennes : La loi de gauss est une loi continue, la série de données est par nature discrète. Par contre, il existe des situations pour lesquelles on peut penser qu'un modèle gaussien est adapté (essentiellement des valeurs dont on sait qu'elles sont produites par de nombreuses causes, à peu près indépendantes et environ de même taille). Dans ces cas, on peut vérifier sur les données obtenues qu'elles suivent bien le modèle intuitif.
Pour des données dont on ne sait rien, difficile de savoir.
Problème : Une grande partie des tests paramétriques ont été construits pour des modèles gaussiens (c'est normal, c'est comme ça qu'on sait faire - De plus, les moyennes de valeurs indépendantes d'une même variable aléatoire suivent à peu près une loi Normale). Voilà pourquoi on utilise une méthode idiote : Tester que "la série est Normale" - ce qui ne veut rien dire - puis appliquer le test !
Une opinion toute personnelle : Le premier test ne sert à rien pour des variables "simples" (distribution "en bosse"), surtout pour des tests robustes comme celui de Student.

je trouve normal d'avoir des tas de questions au début, on ne peut pas tout savoir non ?

Entièrement d'accord. Si je fatigue, je te dirai.

Pour la plupart des tests, il faut supposer les deux séries indépendantes. Cela ne me semble pas poser de problèmes puisqu'il s'agit de 2 populations différentes, qui se rendent dans deux lieux différents.
Cependant, je calcule le coefficient de corrélation (de Kendall en l'occurence) entre mes série et trouve 0.8

Deux erreurs :
* Le coefficient de corrélation n'a rien à voir avec l'indépendance ou la dépendance. Il se contente de mesurer l'évolution commune des deux variables : Est-ce que l'une augmente quand l'autre augmente, ou bien diminue quand l'autre diminue. Mais la coïncidence des valeurs n'est pas une dépendance. Et on peut avoir dépendance sans corrélation (prends Y = sin(X), avec pour x les valeurs en radians de 1 à 100).
* Peut-on parler ici d'indépendance ? Il ne s'agit pas de variables aléatoires, mais de données statistiques. Et elles sont manifestement indirectement dépendantes, puisque dépendant des jours de la semaine. Je pense que si l'on voulait modéliser l'ensemble des deux valeurs, il faudrait utiliser un modèle vecteur à deux coordonnées avec liaison forte entre les deux.
Mais le vrai problème est "Pourquoi sont-elles corrélées ?".

Cordialement

Askanas · July 2009

Bien, récapitulons où nous en sommes (ça devient dur de s'y retrouver je trouve.

1) Réalisation d’un graphique comparant la fréquentation des deux lieux A et B
a. Les courbes sont très semblables (elles sont simplement décalées verticalement car plus forte fréquentation à A)
b. Courbes chaotiques qu’il faut transformer pour obtenir plus d’informations.

2) Régressions linéaires
a. Pour chacun des lieux ==> donnent des courbes de tendance similaires (décroissantes légèrement)
b. Régression des fréquentations à A selon celles au B ==> Coefficients a et b positifs ==> Plus forte fréquentation à A
c. Calcul du coefficient de détermination R² = 0,78

3) Test de normalité des données
a. Les données pour A suivent une distribution normale (validé par un test de Jarque-Bera au seuil 0 ,05)
b. Les données pour le B ne suivent pas une distribution normale (hypothèse rejetée avec un test de Jarque-Bera au seuil 0,05)

4) Coefficient de Kendall (représente le degré de relation entre les 2 séries)
a. Tau = 0,74 avec validation par test de signification.

5) Test de Levene (homoscédasticité non paramétrique)
a. On valide l’hypothèse d’homoscédasticité.

6) Test de Mann-Whitney (égalité des moyennes, ANOVA non paramétrique)
a. On rejette l’hypothèse d’égalité des moyennes.

Peut-être que c'est stupide de demander cela sans que vous ayez les données, mais tout ceci semble-t-il au moins cohérent ? Y a-t-il des aberrations évidentes ?

Merci beaucoup Gerard, je commence à être un peu gêné de poser tant de questions xD

GERARD à la maison · July 2009

Je ne suis pas fatigué.

Même si je vais laisser l'ordi quelques heures (mon jardin m'attend).
Non, je ne vois pas d'incohérences, juste une redondance : Puisqu'on a montré que les valeurs de B sont corrélées à celles de A avec des valeurs inférieures, le test d'égalité des moyennes ne sert à rien.

Cordialement.

NB : Même si ça ne sert à rien, la multiplication des tests fait très "scientifique". Surtout présenté à des gens qui n'y connaissent rien.

Askanas · July 2009

Tu as bien raison de laisser ton ordinateur pour aller jardiner ^^
N'empêche, mon jury est constitué de professeur d'université et de chercheurs.. je doute qu'ils n'y connaissent rien

M'enfin.. je suis là pour appliquer, donc un test de trop ne peut pas faire de mal.. on dira que c'est une vérification supplémentaire.
A bientôt pour d'autres questions

Askanas · August 2009

Re-bonjour. Voici ma dernière question

J'ai toujours du mal à comprendre dans quel sens on rejette H0 et dans lequel on ne peut pas conclure.. En plus selon les tables on obtient le quantile selon le risque ou la p-value...
Je vais donc essayer de donner un exemple précis :

J'effectue un test de normalité de Jarque-Bera sur 2 échantillons.

H0 : « Les données suivent une loi normale », contre
H1 : « Les données ne suivent pas une loi normale ».

Admettons que j'ai réalisé le test sans la moindre erreur, voici ce que j'obtiens :

JB1 = 8,831 et JB2 = 2,936

La statistique JB suit asymptotiquement une loi du Chi²

Je choisis un risque d'erreur de première espèce = 0,05
Le quantile de la loi du chi² pour ce risque et le degré de liberté correspondant est : 5,991

Quelles sont mes conclusions ??
Je rejette H0 pour JB1 car JB1 > 5,991 et je ne peut pas conclure pour JB2 car JB2 < 5,991.. est-ce ça ?
Et puis-je préciser le seuil auquel je rejette H0 ?? Pour JB1 je dis que je rejette H0 avec une probabilité > 95% ?? ou avec une probabilité < 5%...

Tout ceci me perturbe

Merci, une dernière fois

gerard0 · August 2009

Bonjour

Je rejette H0 pour JB1 car JB1 > 5,991 et je ne peut pas conclure pour JB2 car JB2 < 5,991.. est-ce ça ?

Oui, c'est ça, mais dans ce cas. Car la zone d'acceptation du test du Khi-deux est de 0 à la valeur limite. Autrement dit, pour l'acceptation ou le rejet, il faut connaître clairement la façon dont a été conçu le test.

Et puis-je préciser le seuil auquel je rejette H0 ?

Cette question n'a pas de sens clair. Très exactement, le "seuil de rejet" (en anglais "p-value") est la valeur de risque pour laquelle la valeur limite est exactement la valeur du test (ici 5,991. Sur un tableur tu peux l'obtenir, moi il me manque le ddl : Tu cherches la valeur p telle que Khi-deux(ddl, p)=5,991).
Mais ce nombre n'a pas de vraie signification. Il a seulement une utilité : Les logiciels le donnent, ce qui évite d'avoir à leur préciser le risque choisi.

Pour JB1 je dis que je rejette H0 avec une probabilité > 95% ?? ou avec une probabilité < 5%...

Ni l'un ni l'autre ...
Le fait que tu rejettes H₀ n'est pas aléatoire. Tu le fais.
Par contre, tu rejettes H₀ "au risque 5%", ce qui veut dire que le risque que tu prends de rejeter H₀ est inconnu sauf dans un cas : si H₀ est vraie ! Donc, si H₀ est vraie, le risque de te tromper est de H₀.
Pour une hypothèse de normalité, H₀ n'est jamais parfaitement vraie (une variable aléatoire continue n'est qu'un modèle), donc on peut penser que le risque de dire que la répartition est nettement différente d'une répartition gaussienne est d'environ 5% dans le cas où la répartition serait à peu près gaussienne.

Tout ceci me perturbe

Tu n'es pas le premier, et surtout, la réalité des test est bien différente de leur usage fréquent, usage fautif. Pour bien comprendre, il faut reprendre la base de la théorie des tests, bien lire et bien comprendre ce qu'on fait (sans rêver). On fait peu, mais c'est déjà pas mal. Par contre, pas de certitude, et souvent peu de vrais résultats, même avec le risque de se tromper.

Cordialement.

NB : N'hésite pas à y revenir.

Askanas · August 2009

Et encore un grand merci à Gerard (qui a perdu ses identifiants ?? ^^
J'ai obtenu toutes les réponses à toutes mes questions grâce à vous et je vous en remercie.
Je n'hésiterai évidemment pas à revenir vous voir

- Ce sujet peut être fermé si un modérateur le souhaite. -

Un peu perdu dans l'application pratique

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 9