Un peu perdu dans l'application pratique
Réponses
-
Bonjour
Très intéressant ton croquis d'avril 09 avec la courbe de degré 6.
On peut peut-être comparer les courbes pour les autres mois : coeff de correl en prenant les coordonnées des extremums ?
Cordialement
Koniev -
Que veux-tu dire ?? Prendre, par exemple, les 2 maximums et les 2 minimum comme données pour chaque mois et calculer le coefficient de correlations entre les mois avec ces données ?? Qu'est-ce que signifierait alors un fort coefficient de corrélation ?
Merci pour ton aide -
Bonjour Askanas.
Une semaine d'absence, et je trouve des tas de questions :P value : 1,268.10^(-13)
Je sais bien qu'analyser et interpréter ces résultats est ce que je suis sensé faire, mais avant de pouvoir le faire il faut bien l'avoir vu une première fois non ?? Ces résultats sont-ils parlant ?? Je crois avoir compris que la très faible P value est une bonne chosej'obtiens une valeur Z = 7,449 pour ma statistique de test à comparer avec la table de la loi normale.. qui elle ne dépasse pas les valeurs 4,00 pour Z (et la probabilté vaut alors déjà 1.00 ...)Cependant, dans la table d'une loi Fisher avec 1 et 118 comme degrés de liberté, la valeur donnée est 3,92.. Certes je suis inférieur à cette valeur avec mon W mais n'est-ce pas louche ?
Enfin deux remarques :
* Je ne donne pas d'interprétation claire de tes résultats de tests, vu que je ne sais pas ce que tu fais.
* Je suis très surpris de "les mardis sont tout simplement les débuts de semaine et c'est effectivement la raison des "mini pics"." ??? Dans de nombreux endroits (boulangeries, coiffeurs, boites de nuit,..) le début de semaine se caractérise plutôt par le désert. Si le mardi est un jour très particulier (comme le lundi matin pour les banques avec l'arrivée des commerçants qui viennent déposer la recette du week end), il fallait l'intégrer dans ton modèle tout de suite. car on ne fait pas de bonnes statistiques en oubliant le réel.
Cordialement -
J'ai toujours de nombreueses questions à poser Heureusement que tu es revenu pour y répondre
Qu'entends-tu par "intégrer le fait que les mardis soient spéciaux au modèle" ?? Comment faire cela ?
et
J'ai enfin réussi (je crois) à effectuer un test de normalité qui.... valide l'hypothèse que mes données suivent une distribution normale.. Là encore je suis surpris au vu de la courbe de fréquentation quotidienne..
Encore plus surprenant, seulement l'une de mes 2 séries de données suit une loi normale d'après mon test (de Jarque-Bera) et pourtant :
Série A dont le test valide la normalité : Skewness : 0,46 / Kurtosis : 2,40
Série B dont le test rejette la normalité : Skewness : 0,83 / Kurtosis : 3,62
Or on test justement Skewness = 0 et Kurtosis = 3.. J'ai lu à ce sujet qu'on pouvait accepté l'hypothèse de normalité au seuil 0,05 lorsque Skewness est entre -2 et 2 et que (Kurtosis-3) est entre -2 et 2, ce qui est le cas pour A et B mais mon test rejete l'hypothèse pour B.. étrange
Si effectivement j'ai la normalité, alors mes tests non paramétriques restent valables mais sont moins puissants que leurs équivalents paramétriques c'est bien ça ?.. Mais si j'ai la normalité que pour l'une des séries, les tests qui comparent les 2 séries (comme le test de Student) doivent être non paramétriques (donc Mann-Whitney préféré à Student) ?? -
BonjourQu'entends-tu par "intégrer le fait que les mardis soient spéciaux au modèle" ?? Comment faire cela ?Or on test justement Skewness = 0 et Kurtosis = 3.. J'ai lu à ce sujet qu'on pouvait accepté l'hypothèse de normalité au seuil 0,05 lorsque Skewness est entre -2 et 2 et que (Kurtosis-3) est entre -2 et 2
Pour tes valeurs, comme je n'ai pas l'effectif, je ne peux pas contrôler, mais s'il y a le même effectif, il est logique que le B soit rejeté, l'asymétrie est très prononcée (0,83, c'est beaucoup, sauf si la série a peu de valeurs).Si effectivement j'ai la normalité, alors mes tests non paramétriques restent valables mais sont moins puissants que leurs équivalents paramétriques c'est bien ça ?Mais si j'ai la normalité que pour l'une des séries, les tests qui comparent les 2 séries (comme le test de Student) doivent être non paramétriques (donc Mann-Whitney préféré à Student) ??
Enfin :'ai enfin réussi (je crois) à effectuer un test de normalité qui.... valide l'hypothèse que mes données suivent une distribution normale.. Là encore je suis surpris au vu de la courbe de fréquentation quotidienne..
Cordialement -
Comment savoir alors si des données sont normales ?? Il n'y a pas d'autres choix que d'effectuer un test de normalité et si l'hypothèse de normalité n'est pas rejetée, alors on peut supposer que la série suit une distribution normale.. Comment procéder autrement.. ?
J'ai une autre question (et je trouve normal d'avoir des tas de questions au début, on ne peut pas tout savoir non ? ^^) :
Pour la plupart des tests, il faut supposer les deux séries indépendantes. Cela ne me semble pas poser de problèmes puisqu'il s'agit de 2 populations différentes, qui se rendent dans deux lieux différents.
Cependant, je calcule le coefficient de corrélation (de Kendall en l'occurence) entre mes série et trouve 0.8
N'y a-t-il pas la un soucis de cohérence ? Puisqu'indépendance implique non-corrélation... -
Askanas a écrit:Comment savoir alors si des données sont normales ?? Il n'y a pas d'autres choix que d'effectuer un test de normalité et si l'hypothèse de normalité n'est pas rejetée, alors on peut supposer que la série suit une distribution normale.. Comment procéder autrement.. ?
Pour des données dont on ne sait rien, difficile de savoir.
Problème : Une grande partie des tests paramétriques ont été construits pour des modèles gaussiens (c'est normal, c'est comme ça qu'on sait faire - De plus, les moyennes de valeurs indépendantes d'une même variable aléatoire suivent à peu près une loi Normale). Voilà pourquoi on utilise une méthode idiote : Tester que "la série est Normale" - ce qui ne veut rien dire - puis appliquer le test !
Une opinion toute personnelle : Le premier test ne sert à rien pour des variables "simples" (distribution "en bosse"), surtout pour des tests robustes comme celui de Student.je trouve normal d'avoir des tas de questions au début, on ne peut pas tout savoir non ?Pour la plupart des tests, il faut supposer les deux séries indépendantes. Cela ne me semble pas poser de problèmes puisqu'il s'agit de 2 populations différentes, qui se rendent dans deux lieux différents.
Cependant, je calcule le coefficient de corrélation (de Kendall en l'occurence) entre mes série et trouve 0.8
* Le coefficient de corrélation n'a rien à voir avec l'indépendance ou la dépendance. Il se contente de mesurer l'évolution commune des deux variables : Est-ce que l'une augmente quand l'autre augmente, ou bien diminue quand l'autre diminue. Mais la coïncidence des valeurs n'est pas une dépendance. Et on peut avoir dépendance sans corrélation (prends Y = sin(X), avec pour x les valeurs en radians de 1 à 100).
* Peut-on parler ici d'indépendance ? Il ne s'agit pas de variables aléatoires, mais de données statistiques. Et elles sont manifestement indirectement dépendantes, puisque dépendant des jours de la semaine. Je pense que si l'on voulait modéliser l'ensemble des deux valeurs, il faudrait utiliser un modèle vecteur à deux coordonnées avec liaison forte entre les deux.
Mais le vrai problème est "Pourquoi sont-elles corrélées ?".
Cordialement -
Bien, récapitulons où nous en sommes (ça devient dur de s'y retrouver je trouve.
1) Réalisation d’un graphique comparant la fréquentation des deux lieux A et B
a. Les courbes sont très semblables (elles sont simplement décalées verticalement car plus forte fréquentation à A)
b. Courbes chaotiques qu’il faut transformer pour obtenir plus d’informations.
2) Régressions linéaires
a. Pour chacun des lieux ==> donnent des courbes de tendance similaires (décroissantes légèrement)
b. Régression des fréquentations à A selon celles au B ==> Coefficients a et b positifs ==> Plus forte fréquentation à A
c. Calcul du coefficient de détermination R² = 0,78
3) Test de normalité des données
a. Les données pour A suivent une distribution normale (validé par un test de Jarque-Bera au seuil 0 ,05)
b. Les données pour le B ne suivent pas une distribution normale (hypothèse rejetée avec un test de Jarque-Bera au seuil 0,05)
4) Coefficient de Kendall (représente le degré de relation entre les 2 séries)
a. Tau = 0,74 avec validation par test de signification.
5) Test de Levene (homoscédasticité non paramétrique)
a. On valide l’hypothèse d’homoscédasticité.
6) Test de Mann-Whitney (égalité des moyennes, ANOVA non paramétrique)
a. On rejette l’hypothèse d’égalité des moyennes.
Peut-être que c'est stupide de demander cela sans que vous ayez les données, mais tout ceci semble-t-il au moins cohérent ? Y a-t-il des aberrations évidentes ?
Merci beaucoup Gerard, je commence à être un peu gêné de poser tant de questions xD -
Je ne suis pas fatigué.
Même si je vais laisser l'ordi quelques heures (mon jardin m'attend).
Non, je ne vois pas d'incohérences, juste une redondance : Puisqu'on a montré que les valeurs de B sont corrélées à celles de A avec des valeurs inférieures, le test d'égalité des moyennes ne sert à rien.
Cordialement.
NB : Même si ça ne sert à rien, la multiplication des tests fait très "scientifique". Surtout présenté à des gens qui n'y connaissent rien. -
Tu as bien raison de laisser ton ordinateur pour aller jardiner ^^
N'empêche, mon jury est constitué de professeur d'université et de chercheurs.. je doute qu'ils n'y connaissent rien M'enfin.. je suis là pour appliquer, donc un test de trop ne peut pas faire de mal.. on dira que c'est une vérification supplémentaire.
A bientôt pour d'autres questions -
Re-bonjour. Voici ma dernière question
J'ai toujours du mal à comprendre dans quel sens on rejette H0 et dans lequel on ne peut pas conclure.. En plus selon les tables on obtient le quantile selon le risque ou la p-value...
Je vais donc essayer de donner un exemple précis :
J'effectue un test de normalité de Jarque-Bera sur 2 échantillons.
H0 : « Les données suivent une loi normale », contre
H1 : « Les données ne suivent pas une loi normale ».
Admettons que j'ai réalisé le test sans la moindre erreur, voici ce que j'obtiens :
JB1 = 8,831 et JB2 = 2,936
La statistique JB suit asymptotiquement une loi du Chi²
Je choisis un risque d'erreur de première espèce = 0,05
Le quantile de la loi du chi² pour ce risque et le degré de liberté correspondant est : 5,991
Quelles sont mes conclusions ??
Je rejette H0 pour JB1 car JB1 > 5,991 et je ne peut pas conclure pour JB2 car JB2 < 5,991.. est-ce ça ?
Et puis-je préciser le seuil auquel je rejette H0 ?? Pour JB1 je dis que je rejette H0 avec une probabilité > 95% ?? ou avec une probabilité < 5%...
Tout ceci me perturbe
Merci, une dernière fois -
BonjourJe rejette H0 pour JB1 car JB1 > 5,991 et je ne peut pas conclure pour JB2 car JB2 < 5,991.. est-ce ça ?Et puis-je préciser le seuil auquel je rejette H0 ?
Mais ce nombre n'a pas de vraie signification. Il a seulement une utilité : Les logiciels le donnent, ce qui évite d'avoir à leur préciser le risque choisi.Pour JB1 je dis que je rejette H0 avec une probabilité > 95% ?? ou avec une probabilité < 5%...
Le fait que tu rejettes H0 n'est pas aléatoire. Tu le fais.
Par contre, tu rejettes H0 "au risque 5%", ce qui veut dire que le risque que tu prends de rejeter H0 est inconnu sauf dans un cas : si H0 est vraie ! Donc, si H0 est vraie, le risque de te tromper est de H0.
Pour une hypothèse de normalité, H0 n'est jamais parfaitement vraie (une variable aléatoire continue n'est qu'un modèle), donc on peut penser que le risque de dire que la répartition est nettement différente d'une répartition gaussienne est d'environ 5% dans le cas où la répartition serait à peu près gaussienne.Tout ceci me perturbe
Cordialement.
NB : N'hésite pas à y revenir. -
Et encore un grand merci à Gerard (qui a perdu ses identifiants ?? ^^
J'ai obtenu toutes les réponses à toutes mes questions grâce à vous et je vous en remercie.
Je n'hésiterai évidemment pas à revenir vous voir
- Ce sujet peut être fermé si un modérateur le souhaite. -
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 163.1K Toutes les catégories
- 7 Collège/Lycée
- 21.8K Algèbre
- 37.1K Analyse
- 6.2K Arithmétique
- 52 Catégories et structures
- 1K Combinatoire et Graphes
- 11 Sciences des données
- 5K Concours et Examens
- 11 CultureMath
- 47 Enseignement à distance
- 2.9K Fondements et Logique
- 10.3K Géométrie
- 62 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 68 Informatique théorique
- 3.8K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 312 Mathématiques et Physique
- 4.9K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10K Probabilités, théorie de la mesure
- 772 Shtam
- 4.2K Statistiques
- 3.7K Topologie
- 1.4K Vie du Forum et de ses membres