Test comparaison de groupe sans moyennes

Bonjour, je suis psychologue social et j'ai besoin de votre aide pour une petite étude sur le recyclage des déchets sur le terrain.

On cherche à mesurer l'impact d'une méthode de sensibilisation en porte-à-porte.

On a splité une ville en deux.

Dans un secteur, on a rien fait (groupe contrôle). Dans l'autre, on a sensibilisé (groupe expérimental).

On mesure :
- les tonnages de matière recyclés chaque semaine dans les deux secteurs : avant la sensibilisation, pendant la sensibilisation, après la sensibilisation
- le poids de chacune des matières recyclées (Papier, carton, plastique, métal) sur le poids total des matières recyclées, par caractérisation (échantillon aléatoire d'une benne dédiée aux matières recyclables): avant / après.

Où est le problème ?

On ne mesure pas les performances de tri individuelles, mais une performance globale d'un circuit collecte tout entier. Je ne peux pas comparer le poids des matières recyclés à l'échelle d'un foyer : je compare à l'échelle d'un circuit de collecte.

Quels tests statistiques je dois faire pour savoir si mes différences enregistrés entre les deux circuits de collect sont imputables au hasard ou au contraire liés à ma sensibilisation ?

Voili voilou, j'espère que j'ai été assez précis dans ma demande

Réponses

  • Bonjour.

    Avant tout test statistique, il te faux examiner tes données. A vue, est-ce que la sensibilisation a fait varier le taux de recyclage là où elle a été faite ? Tenir compte du retard, aussi : les recyclés sont conservés un certain temps avant d'être donnés. Autre chose à voir : les secteurs choisis (pour sensibilisation ou non) sont-ils homogènes en termes de recyclage ?
    Enfin, tu ne sembles pas parler du plus important : le reste, ce qui n'est pas recyclé (*). Si le recyclage ne fait pas varier la quantité de déchets définitifs, il perd de son utilité.

    Sinon, le fait d'avoir un résultat global n'est pas un problème, surtout si tu as des données sur plusieurs quartiers de chaque type; des données utiles (**).

    Cordialement

    (*) dans mon village, le tri sélectif a diminué de moitié le volume de déchets collectés pour la décharge. le reste est soit recyclé, soit composté. Et déjà des tas de gens "donnaient aux poules" auparavant.
    (**) je ne sais pas trop quelle utilité a la répartition par type de produits recyclés que tu donnes. Est-ce un des buts de ton étude ?
  • Merci Gerard exactement, ma difficulté porte sur les statistiques pour des mesures globales.

    Je reprends point par point ce que tu dis.



    "Avant tout test statistique, il te faux examiner tes données. A vue, est-ce que la sensibilisation a fait varier le taux de recyclage là où elle a été faite ?".

    Niveau descriptif, je vois pas grand chose encore. J'ai pas encore accès aux données les plus intéressantes (tonnages pour les deux secteurs chaque semaine et pour les trois flux : verre, emballages recyclables, ordures ménagères résiduelles).



    "Tenir compte du retard, aussi : les recyclés sont conservés un certain temps avant d'être donnés."

    Les mesures sont assez répétés et espacés de la période de sensibilisation : elles prennent en compte le temps qu'il faut pour jeter.



    "Autre chose à voir : les secteurs choisis (pour sensibilisation ou non) sont-ils homogènes en termes de recyclage ?".

    Les secteurs choisis sont relativement homogènes entre eux : même ville, même niveau socio-économique, même type d'habitation, mais il y a un peu plus de petits commerçants dans le secteur contrôle (c'est une limite..).



    "Enfin, tu ne sembles pas parler du plus important : le reste, ce qui n'est pas recyclé (*). Si le recyclage ne fait pas varier la quantité de déchets définitifs, il perd de son utilité."

    La campagne de sensibilisation ne porte pas sur la prévention des déchets. La quantité de déchets globale n'est pas sensé diminuer.
    La campagne porte sur le recyclage des déchets.
    L'augmentation des emballages recyclables doit bien sûr être compensé par une diminution des ordures ménagères résiduelles (OMR). Si les OMR augmentent également, c'est que tout le monde consomme davantage, sans que le nombre de recycleurs ait augmenté.



    "Je ne sais pas trop quelle utilité a la répartition par type de produits recyclés que tu donnes. Est-ce un des buts de ton étude ?"

    Pour le moment, je n'ai accès qu'aux données les moins utiles : la répartition par types de produits recyclés. Ces données répondent à un des buts de mon étude : la sensibilisation améliore t-elle la qualité du tri ? (diminution de la proportion des erreurs de tri dans un échantillon de matières recyclables).



    "Sinon, le fait d'avoir un résultat global n'est pas un problème, surtout si tu as des données sur plusieurs quartiers de chaque type".

    Je n'ai pas accès aux données de plusieurs quartiers d'un même circuit de collecte.
    Je n'ai accès qu'aux données d'un circuit de collecte tout entier.
    Ci-joint un tableau minimal avec la variable qualité du tri.
    Mon hypothèse est la suivante : la proportion d'erreurs de tri diminue dans la condition sensibilisation par comparaison avec la condition contrôle.
    Les données vont dans le sens inverse des mon hypothèse :(.
    Quel test statistique je dois faire pour savoir si ces petites différences sont statistiquement significatives ?
  • "Je n'ai pas accès aux données de plusieurs quartiers d'un même circuit de collecte. " Remplace "quartier" par "circuit de collecte". Désolé, mais je découvre ton travail et son vocabulaire.

    "Les données vont dans le sens inverse des mon hypothèse" Oui, c'est normal, l'incitation au tri sélectif donne souvent ce résultat au début : par bonne volonté, les trieurs mettent un peu n'importe quoi, "pour trier". C'est pourquoi la sensibilisation doit être accompagnée de nombreuses interventions sur "comment trier" (*)

    Pour le test, je ne sais pas, mais si les données sont contraires à l'hypothèse, inutile de tester :-)

    Cordialement.

    (*) d'autant que d'un endroit à l'autre, on ne trie pas de la même façon !
  • Rebonjour,

    Oui, j'ai accès qu'aux donnés de deux circuits de collecte : un sensibilisé / l'autre non-sensibilisé.

    ça m'étonne quand même que la proportion d'erreurs soit plus importante dans la condition sensibilisation, puisque dans notre méthode on fait faire un bilan du tri (dans quelle poubelle vous jetez tel type d'emballage) qui détecte le niveau du trieur ;: on adapte les consignes en fonction du niveau ; on fait choisir un geste de tri dans une liste pré-établi (ex. trier les emballages métalliques), et on aide les gens à anticiper les difficultés pour réaliser ce geste. Du coup le comment trier est au coeur du dispositif.

    Je sais pas si ça vaut pas le coup de tester cette différence, puisque si la différence est significative, ça veut dire que la méthode est contre-productive au moins au début. Après j'ai une autre caractérisation de prévu dans quelques semaines pour voir si cette augmentation des erreurs dans la foulée de l'intervention constitue une sorte étape d'apprentissage dans laquelle les gens font n'importe quoi.

    Je cherche mais je trouve aucun test inférentiel adapté à mon cas où je n'ai aucun score individuel mais qu'une mesure globale.

    Merci beaucoup Gérard pour tes questions qui m'aident bien à réfléchir à mon protocole
  • Si je te comprends bien, tu as seulement deux données (ou une série double, si la mesure est faite semaine après semaine).
    Pour te consoler : le tri est toujours compliqué, même avec de l'habitude, avec les objets composites, les emballages en plastique qui miment l'aluminium, etc.

    Cordialement.
  • Rebonjour,

    J'ai accès à de nouvelles données.

    Mon nouveau tableau n'a effectivement que deux lignes : une ligne pour le secteur sensibilisé et l'autre pour le secteur contrôle.
    En colonne, les trois périodes de sensibilisation : avant / pendant / après
    Comme valeurs, la moyenne des tonnages des emballages recyclables.
    J'ai donc un protocole mixte 3 (périodes) x 2 (secteurs).

    Visuellement, la différence des moyennes (après - avant) est plus importante dans le secteur sensibilisé que dans le secteur contrôle :) !
    Mais, R me sort un message d'erreurs lorsque je fais une regression linéaire (après avoir fais les recodages et contrastes nécessaires).
    Quelqu'un comprend ce message d'erreurs ?

    Avec W1 = après - avant ;
    secteur_r = - 1 = contrôle ; +1 = sensibilisation.
    lm = linéar_model



    Call:
    lm(formula = W1 ~ secteur_r, data = dfcourt)

    Residuals:
    ALL 2 residuals are 0: no residual degrees of freedom!

    Coefficients:
    Estimate Std. Error t value Pr(>|t|)
    (Intercept) -0.5006 NA NA NA
    secteur_r 0.3138 NA NA NA

    Residual standard error: NaN on 0 degrees of freedom
    (1 observation deleted due to missingness)
    Multiple R-squared: 1, Adjusted R-squared: NaN
    F-statistic: NaN on 1 and 0 DF, p-value: NA




    Analysis of Variance Table

    Response: W1
    Df Sum Sq Mean Sq F value Pr(>F)
    secteur_r 1 0.19691 0.19691
    Residuals 0 0.00000
    Warning message:
    In anova.lm(fit) :
    les tests F d'ANOVA sur un ajustement pratiquement parfait ne sont pas fiables
Connectez-vous ou Inscrivez-vous pour répondre.