Question moyenne de p-value

Bonjour à tous,

J'ai une question qui peut paraître assez bête mais je suis encore plutôt novice dans le monde des statistiques :-)

Pour une étude (en biostatistique), j'ai des données sur différents sites et sur chaque sites j'ai des données sur plusieurs paramètre qui sont contrôlés annuellement. J'aimerais calculer la corrélation entre les différents paramètres sur l'ensemble de mes sites d'études et je ne sais pas quelle est la meilleure méthode.
A priori je vois 2 possibilités et j'aimerais savoir laquelle est la plus adaptée ou si je me trompe complètement et que d'autres méthodes existent.
- Calculer directement une matrice de corrélation contenant tout mes sites d'études (mais avec cette méthode j'ai peur que l'on perde l'influence de chaque site)
- Calculer pour chaque site une matrice de corrélation et ensuite faire une moyenne des matrices de corrélations (mais j'ai peur que cela ne soit pas juste mathématiquement parlant, notamment pour analyser ensuite avec la p-value ? Peut-on faire des moyennes de p-value ?)

Voila j’espère avoir été assez clair dans mon problème.

En vous remerciant par avance de votre aide qui me sera précieuse.

Réponses

  • Bonjour.

    Je réponds d'abord à ta question sur les moyennes de p-valeurs. Pour qu'une moyenne ait un sens il faut que la variable soit additive (*). Et même avant que les valeurs aient une mesure commune. Tout ça paraît peu possible pour des p-values.

    Ensuite, tu sembles être dans un cadre d'analyse multifactorielle, que connaît n'importe quel biostatisticien. Donc tu devrais essayer d'en voir un. Ou reposer ta question sur un site spécialisé en statistiques. Pour ma part, n'ayant jamais pratiqué cela, je me garderai de conseiller.

    Cordialement.


    (*) une chaussure droite en 37 et une chaussure gauche en 43, ça ne fait pas une paire en 40.
  • Bonsoir,

    A ce stade là, le problème n'est pas particulièrement d'être novice en biostatistique. C'est surtout de ne pas savoir rédiger un protocole pour en tirer des questions un peu claires. Les post n'indiquent pas quelles sont les variables, la problématique...On ne peut pas t'aider avec si peu de renseignements.

    Cordialement.

    Ajout : les demandes sont vraiment vagues avec des mots-clés. On pense à la correction de Bonferonni ou à d'autres corrections mais....
  • Ok, je vais essayer de plus développer mon étude

    Alors mon étude porte sur les différents facteurs qui vont influencer une population de poissons sur des cours d'eau.
    Pour cela j'ai différents relevés sur la communau de poissons sur différents sites et différentes années entre 2005 et 2018. Ensuite sur les mêmes sites et quasiment sur les mêmes années 2005 à 2018 j'ai un ensemble assez vaste de données explicatives (allant de données chimique, à des données sur l'occupation des sols des bassins versants, des données sur le débit etc.).

    Je cherche dans un premier temps à trouver quelles sont les variables explicatives qui sont corrélées entre elles afin de réduire le nombre de variables explicatives que je vais utiliser par les différentes analyses statistiques que je vais mettre en place.
    Ainsi je cherche par quel moyen trouver les variables explicatives qui sont corrélés à l’ensemble de l'étude.
    Bien cordialement.
  • Bonjour,

    Quand tu dis influencer, tu veux dire une augmentation du nombre de poissons ? À priori, quels sont les facteurs qui peuvent influencer la variable à expliquer ?

    Cordialement.
  • Une augmentation ou une diminution.
    A priori tout les facteurs sélectionnés dans l'étude sont susceptibles d'avoir un impact sur les populations de poissons (les facteurs ont été choisis à la suite d'une analyse bibliographique). Mais parmi ces facteurs il y en a forcement qui sont corrélés (exemple : température de l'eau et O2 dissous) et je cherche l'ensemble des facteurs qui sont corrélés entre eux afin d'éviter d'avoir une redondance des informations.
  • Entendu. Ainsi, tu as une matrice des corrélations entre les différentes variables, si je comprends correctement et, tu veux tester chaque coefficient de cette matrice. Dans ce cas il n'est pas nécessaire d'ajuster le risque de première espèce. On réduit ce dernier lorsqu'un ensemble de tests se fait sur une même question. et, qu'ils participent tous à une décision. L'aspect global du risque l'emporte alors sur le risque individuel associé à chaque test d'où certaines corrections comme celle de Bonferonni. Cela peut faire partie d'une première étape mais fastidieuse.

    Comme tu envisages une seconde étape de modélisation (régression de Poisson, multiple, logistique,...) en fonction de tes questionnements, tu pourrais voir qu'il existe des algorithmes ou des critères de choix de variables pour les établir. Tu peux, à ce titre regarder, le traitement de la multicolinéarité en régression multiple.

    Bien cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.