Statistiques pour mon mémoire

Bonjour tout le monde, dans le cadre de mon mémoire de fin d’étude en école d’audioprothèse je suis dans la nécessité de réaliser des tests statistiques.
En effet, j’ai réalisé des tests sur 7 listes audiométriques comprenant 20 items chacune (140 items au total).
J’ai obtenu grâce à mes tests le pourcentage de bonnes réponses pour chaque items, mon objectif est de savoir si les 7 listes sont équilibrées entres elles, j’ai eu comme première intention d’utiliser le test de Kruskal-Wallis. Mais je n’ai pas su interpréter les résultats de plus je ne suis pas sûr que ce soit le bon test.
Si vous pouviez m’aider dans mes recherches je vous en serais très reconnaissant.
Merci à vous bonne journée.

Réponses

  • Bonjour.

    Ce que tu appelles "équilibrées" est-il de savoir si les résultats sont en gros les mêmes d'une liste à l'autre ? Dans ce cas le Kruskal-Wallis servirait si tu comparais des valeurs aux tests; mais comme tu es passé à des effectifs, le test du khi-deux serait plus approprié.

    Cordialement.
  • merci de ta réponse, oui effectivement, de plus je voudrais savoir qu'elle(s) est(sont) la(les) liste(s) qui n'est pas adapté dans le cas ou cela se produirai, est-ce possible avec ce test ?
  • Le résultat brut ne le dit pas.

    En général, une analyse visuelle des données permet déjà d'avoir quelques idées (une représentation des résultats ou simplement la lecture des résultats). Mais tu l'as sans doute déjà fait (et tu as une petite idée). Si un des tests a une grande dispersion, l'item pose problème.

    Attention : il peut y avoir un problème de fidélité global sans que deux soient très différents.

    Pour en dire plus, il faudrait avoir les données (pour l'instant, c'est flou !
  • oui j'ai déja une petite idée ;)
    pour le problème de la fidélité je ne me fait pas de soucis car elles ont été créées en étant équilibrées, mais j'ai changé les paramètres de test d'ou ma démarche.
    je vais essayer vous faire parvenir mes résulats
  • donnée mémoire. Voilà les résultats que j'ai obtenus, il y a les pourcentages de bonnes réponses en face de chaque item, de plus il y a la moyenne de chaque liste en dessous de celle-ci.
  • Je ne suis pas plus éclairé !

    En fait, toi tu sais ce que tu fais, mais pour ma part, je ne sais pas. J'avais une vague idée, que ce tableau ne confirme pas (j'avais pensé à des pourcentages sur le nombre d'items réussis par un répondeur sur les 20 de la liste). Finalement, je ne sais pas ce que sont ces pourcentages, des pourcentages de quoi. Donc soit tu rentres dans le détail, et on verra ce qu'on peut faire, soit il est inutile de continuer. En tout cas, il ne s'agit pas de comparer des valeurs, ou des effectifs, mais manifestement d'autre chose ...
  • Bonjour,

    Cela donne l'occasion d'"imgurgiter" des publicités. Je ne sais pas ce qu'est une liste audiométrique (désolé).

    Cordialement.
  • Désolée de ne pas avoir été plus claire, je vais essayer d'éclaircir la situation.

    Alors je vais commencer par le début, je réalise un test audiométrie dans le bruit pour mon mémoire. pour ce faire j'ai créé un bruit de masque adapté à des listes audiométriques déja existantes (ces listes sont déjà équilibrées dans le silence). Elles sont composées de 7 listes elles mêmes composées de 20 items. J'ai réalisé des tests sur des patients (31) en leurs faisant écouter ces items dans le bruit. cela m'a permis d'obtenir le pourcentage de bonnes réponses pour chaque items (ce sont les pourcentages que j'ai introduit dans le tableau). Ma problématique est de savoir si ces listes sont homogènes les unes par rapport aux autres avec le bruit que j'ai créé. Si cela n'est pas le cas, je devrais éliminer une ou plusieurs listes pour retenir uniquement les listes équilibrées sachant qu'elles doivent être proche de 50% de bonnes réponses.
    J'espère avoir été plus claire.
    Merci de ta réponse.

    [Toute phrase commence par une majuscule. AD]
  • Une liste audiométrique permet de faire des tests auditifs avec des mots, pour des personnes ayant des problèmes d'audition afin d'évaluer leurs capacités de compréhension que ça soit dans le calme ou dans le bruit.
  • Merci pour cette précision.
    Cordialement.
  • Bon,

    pour voir si j'ai compris, tu as fait passer les 7*20=140 sons bruités à chacun des 31 patients. J'imagine que, pour référence, tu leur as aussi fait passer au moins une liste non bruitée.
    As-tu des références sur la constitution des listes "de base", celles qui servent de référence en audiométrie ?

    Ensuite, il serait bon de savoir ce que tu appelles une "liste équilibrée". Par exemple la première a des taux de reconnaissance qui vont de 19% à 95%; difficile de faire moins équilibré. A moins que ce soit classique que certaines syllabes sont bien moins reconnues que d'autres ?
    En tout cas, comme les listes utilisent des syllabes différentes, difficile de les comparer entre elles.

    Finalement, que veux-tu vraiment faire (pas de mots généraux, description précise de ton but).

    Cordialement.
  • Bonsoir
    Je pense comme gerard0 et je ne vois la possibilité que de faire des tests globaux. C'est-à-dire, par exemple, tester la reconnaissance globale, d'une liste par rapport à une autre. Cela ne veut pas dire que tu ne peux rien faire statistiquement mais c'est à toi de nous orienter par ton savoir métier sur ce qui pourrait être intéressant. Tu n'es pas la seule à mener des expérimentations en pensant que la partie statistique est une étape technique sans penser à quelles données dois-je recueillir pour répondre statistiquement aux questions et sous-questions que je pose dans mon étude.

    À suivre.
    Bien cordialement.
  • Alors je viens de me rendre compte que je suis parti dans des explications un peu compliquées, je viens d'avoir mon référent de mémoire, finalement je dois juste comparer statistiquement les moyennes des 7 listes que je vous ai mis en pj.
    je me suis un peu perdu dans tout mes résultats :)

    [Préfère "Joindre un fichier" à donner un lien qui disparaîtra tôt ou tard. AD]108254
  • Est-ce que le test Anova pourrait convenir ?
  • A priori, la condition de Normalité des données n'est pas respectée; des pourcentages(fréquences) sont bornés par nature. Mais avec 20 données par classe, cette condition peut être oubliée (L'anova est robuste sur ce point). Par contre, la deuxième condition, l’homoscédasticité (égalité, au moins approchée des variances) est à vérifier. Si les variances dans les 7 séries sont proches, l'anova sera un bon outil.

    Cordialement.
  • Mince quand même tu aurais pu faire attention...Des tests globaux, je te l'avais dit.

    Bon week-end.
  • est-ce que je peux utiliser Fisher pour verifier les variances ?
  • Je ne comprends pas !

    Tu n'as pas besoin d'un test pour regarder si les variances sont à peu près égales. Et "Fischer" est le nom d'un statisticien, mort depuis longtemps. On lui associe plusieurs tests, sois précis.
  • désolé, j'ai effectué le calcul de mes variances, j'obtiens ;
    variance listre 1 0,038052467
    variance listre 2 0,032873514
    variance listre 3 0,039238184
    variance listre 4 0,036564845
    variance listre 5 0,028486637
    variance listre 6 0,041712991
    variance listre 7 0,028273043
    pensez vous qu'elles sont assez proches ?
  • Elles sont assez proches, même si on peut voir qu'il y a une certaine dispersion. J'imagine qu'on peut les lire 380 (%²), 329 (%²), etc ... ce qui fait quand même une grosse dispersion (pour la première, la moyenne est 53,55% avec un écart type de 19,5 % !!).
    A moins que ce soit la variance des valeurs en pourcent (de moyenne 53,55) ce qui serait alors tellement faibles qu'on n'a pas besoin de calculer pour voir que 53,55 et 47,50 sont totalement différents (avec un écart type de 0,2 on a une différence de 30 écarts types !!).

    Cordialement.
  • en effet ce sont bien les variances des valeurs en pourcent! à partir de quelle valeur peut on dire que la différence est significative ?
  • "significative" n'a de sens qu'à partir d'un tes (et encore, le choix du seuil de rejet peut modifier le résultat !).

    Si j'ai bien compris tes valeurs, l'anova dira qu'il y a une différence entre tes 7 listes, mais déjà la comparaison des listes 1 et 2 aurait dû t'alerter : liste 1, des valeurs toutes très proches de 53,55%, quasiment toutes à moins de 1%; liste 2, des valeurs toutes très proches de 47,50%, quasiment toutes à moins de 1%; donc manifestement une différence évidente.

    Cordialement.
  • Très bien merci beaucoup !!
  • Bonjour tout le monde, je fais une étude ou j'ai besoin de comparer 7 moyennes entres elles.
            moyenne	variance	écart type 
    liste 1 53,55%	0,038052467	0,195070416
    liste 2	47,50%	0,040015136	0,181310547
    liste 3	55,00%	0,039238184	0,198086304
    liste 4	50,56%	0,036564845	0,191219363
    liste 5	51,05%	0,028486637	0,168779847
    liste 6	51,85%	0,041712991	0,204237584
    liste 7	50,73%	0,028273043	0,168145899
    
    Voici les valeurs que j'obtiens, mais je ne sais pas comment les analyser. pouvez-vous m'éclairer ?

    [Restons dans la discussion que tu as ouverte sur le sujet. AD]
  • Pourquoi ouvrir une nouvelle discussion sur le même sujet ? Et reposer la même question ?

    Pour ceux qui n'ont pas suivi, c'était Statistiques pour mon mémoire.

    A noter : Ceux qui n'ont pas vu quoi que ce soit à rajouter n'en diront pas plus ici !!
  • Si, il y a du nouveau. On a la variance et l'écart-type.
    Et on peut constater qu'il y a une erreur sur la ligne 2.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Difficile de travailler avec ce tableau, les valeurs étant données en %, l'écart type non. Si par exemple la première ligne est, en vraie valeur
    0,5355 0,038052467 0,195070416
    (donc un écart type de près de 20%), les moyennes (de 20 valeurs) sont très proches les unes des autres au vu de la dispersion très importante (en gros de 0% à 100%). Par contre (je l'ai déjà fait remarquer) si le calcul a été fait sur les valeurs en %, alors la ligne est
    53,55 0,038052467 (%)² 0,195070416 %
    et les valeurs sont très regroupées autour de la moyenne (presque toutes entre 55% et 56 %); dans ce cas les moyennes sont de façon évidente très différentes.

    Mais Maxmasx n'a jamais expliqué comment les variances étaient calculées (le sait-il ?), et semblait satisfait il y a 9 jours ...
  • Bonjour,

    Tu as de bonnes informations fournies par les différents intervenants.

    édit. Je supprime ma réponse qui ne me satisfait pas. Il y a une poignée d'autres approches qui conviendraient tout autant. Pour en esquisser quelques unes :

    (1) L'approche vers laquelle tu sembles te diriger, l'analyse de variance à un facteur. Implicitement, il me semble que cela assimile les pourcentages (moyenne empirique sur les $31$ sujets) à une probabilité $p_{son}$ de succès ($\equiv$ le paramètre d'une loi de Bernoulli / binomiale) pour le son correspondant. Sous l’hypothèse nulle $p_{son}$ est tirée suivant une loi normale, de variance et de moyenne indépendantes de la liste (et du son). On peut remettre en question certains choix de modélisation, notamment on peut supposer que le logit se prête davantage que la probabilité $p_{son}$ à une hypothèse de normalité. Cela suggère une variante :

    (1') On décrit chaque expérience (pour chaque son et chaque sujet) par un modèle logistique de paramètre logit $\eta_{son}$ estimé à partir des $31$ observations. Sous l’hypothèse nulle, $\eta_{son}$ est tiré selon une loi normale de moyenne/variance indépendante de la liste, etc. On se retrouve à faire de l'analyse de variance à un facteur sur les $\eta_{son}$, avec au final une statistique suivant une loi $F(7-1, 7\cdot(20-1))$. [Il y aurait quelques variantes Bayésiennes, mais peu importe.]

    ---

    Deuxièmement, des approches à base de $\chi^2$, en revenant à l’idée que chaque réalisation d'une expérience est la réponse (succès/échec) d'un sujet (parmi $31$) pour un son (parmi $20$) d'une liste (parmi $7$). Je comprends le regroupement de sons en listes équilibrées comme un plan d’expérience établi selon la stratégie décrite ici : Blocking (Statistics). Donc on regroupe, au sein de chaque liste, les succès/échecs obtenus sur les $20$ sons. On peut alors résumer le tout dans une table de contingence, de sorte que chaque ligne $i$ somme à $n_i=n_{is}+n_{ie}=20\times 31$:

    $\quad\quad\quad$ Succès $\quad$ Échecs
    Liste $1$: $\quad$ $n_{1s}$ $\quad\quad$ $n_{1e}$
    Liste $2$: $\quad$ $n_{2s}$ $\quad\quad$ $n_{2e}$
    ...

    (2) Sous l’hypothèse nulle chaque ligne suit la même distribution binomiale. Donc, on introduit une statistique
    $T = \sum_{ij} {(n_{ij} - \bar{n}_{j})^2}/{\bar{n}_{j}}$, où $j=s,e$,
    avec $\bar{n}_{j}\triangleq 1/7\cdot \sum_{i=1\cdots 7} n_{ij}$ la moyennes des succès (resp. échecs) sur les $7$ listes. $T$ suit asymptotiquement une loi du $\chi^2(6)$ à $(7-1)\times (2-1)=6$ degrés de liberté, sous l’hypothèse nulle. C'est un cas particulier de test du $\chi^2$. Si tu rejettes l’hypothèse nulle, tu peux avoir de façon post-hoc à t’intéresser à la / aux listes qui violent l’hypothèse.

    (2') On peut envisager une approche basée sur des tests multiples, qui suit cette logique d'investigation liste par liste dès le début, pour peu que tu escomptes des listes équilibrées avec $50\%$ de taux de succès. Dans ce cas tu peux en faire ton hypothèse nulle : chaque liste correspond à une réalisation binomiale de probabilité $0.5$. Tu te retrouves avec $7$ tests décrits par $7$ statistiques
    $T_i=\sum_{j} {(n_{ij} - 0.5 n_i)^2}/{0.5 n_i}$,
    (avec $n_i=20\cdot 31$) qui suivent asymptotiquement des lois du $\chi^2(1)$ à $1$ degré de liberté... Tu auras à envisager des corrections pour tests multiples.

    ---

    Voila pour un échantillon de possibilités. Je ne doute pas qu'il y en ait d'autres, peut-être plus avisées... les tests d’hypothèse ne sont pas précisément mon domaine.

    Cordialement.
  • Les variances ont été calculées grâce à la fonction VAR.S sur exel j'ai intégré les valeurs en pourcentage de chaque listes, satisfait ne veut pas dire que je n'ai plus de questions !!
  • J'ai aussi vérifié si mes listes suivaient bien une loi normale grâce au test de Shapiro-Wilk, mes 7 listes suivent bien une loi normale.
    Existe-t-il un test semblable au test de Student pour données appariées pour 7 groupes ? Anova ?
  • Anova oui, cf. (1) et (1') dans mon précédent message.
    MAXMASX a écrit:
    J'ai aussi vérifié si mes listes suivaient bien une loi normale grâce au test de Shapiro-Wilk, mes 7 listes suivent bien une loi normale.

    Héhé. Ok, le test n'a pas rejeté l’hypothèse de normalité. Mais je peux te dire sans test que tes probabilités $p_{son}\in [0,1]$ ne suivent pas une loi normale. (:P)

    Méthode du flemmard pour y remédier, transforme au préalable $p_{son}$ en $\eta_{son} = \text{logit}(p_{son})$. C'est la transformation logit, $p \in [0,1] \mapsto \text{logit}(p) \triangleq \log(p/(1-p)) \in(-\infty,+\infty)$.

    Sur ta plage de valeurs pour $p$ (entre $0.2$ et $0.8$), c'est vrai que ça ne fait pas une grande différence puisque la transformation est quasi-linéaire. Or, la linéarité préserve la normalité...

    [Ne pas écrire de la même manière l'intervalle $[0,1]$ avec le couple $(0,1)$ ! AD]
  • Ca marche, je vais essayer de comprendre, cela veut dire que je pourrais utiliser l'anova dans ce cas ?
Connectez-vous ou Inscrivez-vous pour répondre.