Statistiques d’une thèse ..
dans Statistiques
Bonsoir à tous
Je suis vraiment pas experte en maths ni stats. Ma question est la suivante.
Je fais une thèse de doctorat sur des déterminants de l'infertilité masculine. J'ai donc mesuré plusieurs paramètres tels que les les caractéristiques de leur spermogrammes. Le problème auquel je fais fasse est que les écarts types de certaines variables sont plus élevées que les moyennes.
Comment enlever les aberrantes lorsque les valeurs sont continue ex; 1,23...20 ???
[Ne pas squatter la discussion d'autrui, ouvrir une nouvelle discussion pour son propre problème. :-) AD]
Je suis vraiment pas experte en maths ni stats. Ma question est la suivante.
Je fais une thèse de doctorat sur des déterminants de l'infertilité masculine. J'ai donc mesuré plusieurs paramètres tels que les les caractéristiques de leur spermogrammes. Le problème auquel je fais fasse est que les écarts types de certaines variables sont plus élevées que les moyennes.
Comment enlever les aberrantes lorsque les valeurs sont continue ex; 1,23...20 ???
[Ne pas squatter la discussion d'autrui, ouvrir une nouvelle discussion pour son propre problème. :-) AD]
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Une première chose est d'examiner si ce sont bien des valeurs erronées. s'il y a une raison de les éliminer (raison médicale, pas de raison statistique), on les élimine (*).
Par contre, des écarts types supérieurs aux moyennes, ce n'est pas un problème; même pour des variables positives (dans ce cas, cela veut dire qu'il y a beaucoup de valeurs faibles et d'autres très supérieures).
Cordialement.
(*) un exemple classique est en décimologie (étude de la notation) une note de 23/20. Généralement, c'est une erreur de frappe (quoiqu'au bac, on voit des "moyennes" supérieures à 20 depuis quelques années).
Les données ne sont pas erronées. Ce sont les valeurs de mes patients et elles ne dépendent pas de moi. J'ai effectué une corrélation de [large]S[/large]pearman sur ces données et j'ai obtenu une différence statistiquement significative. Mes résultats ont été contestés à cause du fait que l'écart type était justement supérieur à la moyenne. Je ne veux pas supprimer de valeurs mais comment puis-je me justifier et expliquer cela ? Comment corriger l'écart type pour qu'il soit normal ?
[Charles Spearman (1863-1945) prend toujours une majuscule. AD]
Si je prends tous les français et que je leur demande le montant de leur patrimoine, là aussi, j'aurais probablement un écart-type supérieur à la moyenne.
Dans ton cas, option 1, ton prof se trompe. Option 2, tu t'es trompée dans le calcul de la moyenne ou de l'écart-type.
Je suis vraiment rassurée.
J'ai refais mes calculs et les résultats sont identiques. Puis-je à défaut de présenter la moyenne+/-SD présenter plutôt la médiane dans mon article ? Si oui il y a-t-il une précision particulière que je dois ajouter ?
Ex : médiane (valeur la plus faible-valeur la plus élevée)
Dans ce genre de cas, la moyenne est souvent de peu d'intérêt (*), et on utilisera plutôt des quantiles (médiane, interquartile, ..) qui seront plus signifiants.
Cordialement.
(*) la plupart des français ont un patrimoine très inférieur à la moyenne (celle de Bernard Arnaud a été récemment évaluée à 72 milliards de dollars, à lui tout seul il fait monter la moyenne de 1000 $ !!)
J'ai une préoccupations.
Dans mon étude, j'ai deux groupes de patients, les cas et les témoins. Après avoir déterminé leur glycémie, j'ai présenté la distribution de leur glycémie en fonction de certaines classes d'âge. Quel test statistique puis-je utiliser pour comparer la distribution de la glycémie en fonction des classes d'âge dans ces deux groupes ? J'espère que je suis suffisamment claire.
Merci d'avance !
Tout dépend comment est constitué ton recueil de données (distribution de leur glycémie en fonction de certaines classes d'âge). Si tu as des classes avec leurs effectifs, un test de khi-deux peut suffire. Pour des données continues, c'est moins évident.
Cordialement.
Dans le premier cas, sans les données brutes (toutes les valeurs ayant donné ces moyennes, on ne peut pas faire grand chose. Pour calculer des moyennes, il faut au moins des effectifs. Si tu n'as pas les données brutes, tu ne peux plus faire que des comparaisons par simple lecture.
A noter : Les valeur variant fortement d'une classe d'âge à l'autre, le choix de ces classes d'âge peut biaiser tout raisonnement fait avec ce tableau.
Cordialement.
Pour ce qui est des données elles sont disponibles car je les ai collectées moi-même. Je vous avoue que j'hésite vraiment sur comment présenter cette partie. Je souhaite comparer la variation de ces paramètres en fonction des classes d'âge dans les deux groupes. C'est-à-dire est-ce que l'âge influence ces paramètres ? Également comment est cette variation chez les cas comparativement aux témoins
Dans un premier temps, tu peux commencer par vérifier qu'il y a bien une différence avec une anova (ou Kruskall Wallis si les conditions ne sont pas remplies) entre "cas" et "témoin".
Si tu dois aboutir à une publication scientifique (ou pour une thèse scientifique), tu as intérêt à te faire aider par un bio-statisticien ou au moins utiliser des outils logiciels de statistiques.
Cordialement.
Merci encore !