Choisir un modèle statistique

Bonjour,
j'ai une base de données et j'aimerais faire le tri afin de savoir ce que je peux moyenner ou pas, je m'explique:

dans ma base de données j'ai 3 variables mesurées:
- variable 1: la taille des racines
-variable 2: le poids des racines
.variable 3: le poids des plantes

j'ai aussi des variables qui peuvent influencer/expliquer ces mesures:
-variété (N=5)
-traitement (N=3) (les traitements sont réalisées dans des UE séparées)
-période d'observation en mois (N=2)
-année de l'essai (N=3 pour variable 1 et 2 et N=2 pour variable 3) = répétitions

Je considère l’année comme une répétition dans mes essais donc l’année doit être un "random factor", c’est juste ?

Les observations de la taille des racines, du poids des racines et du poids des plantes sont réalisées à 2 périodes: 3 et 5 mois pour chacune des unités (un traitement par unité)), l'échantillonnage est destructif donc les observations à 5 mois sont réalisées sur des plantes différentes.

J'aimerais faire une ANOVA 3 ou 4 pour voir quels sont les variables et les interactions qui vont vraiment influencer mes variables mesurées afin de savoir ce que je vais pouvoir moyenner ou pas dans mes graphiques (par exemple si la variété n'a pas d'influence je peux faire la moyenne des 5 variété pour représenter l'influence des traitements sur les variables mesurées). Je ne sais pas comment m'y prendre pour faire cela et interpréter, pourriez-vous m'aider SVP?

Est-ce que je dois choisir un modèle "split plot design", "complete bloc" ou autre ? Sachant que dans mes unités (une unité par traitement) les plantes sont réparties toujours dans le même ordre au sein d’une année (= 1 rep) mais l’ordre change en fonction des années (voir image en PJ).

J'aimerais aussi faire une matrice de corrélation et également représenter tout ça sur une ACP et faire un cercle de corrélation mais je ne sais pas si je peux et comment faire. Avez-vous des conseils ?

Sachant que pour le poids des plantes les mesures n'ont pu être réalisées que sur 2 années tandis que pour les autres variables mesurées elles ont été mesurées sur N=3 années, est-ce gênant si il y a des "na" pour ces différentes analyses?

Voici un tableau ci-dessous avec mes données ainsi qu’une image de mon design expérimental.
Merci par avance pour votre aide et vos pistes.
Meilleures salutations.
Variete	Traitement	periode	annee	poids_racines	taille_racines	poids_plantes
var1	t1	3mois	an1	3.53	8.52	na
var2	t1	3mois	an1	7.73	14.32	na
var3	t1	3mois	an1	0.04	0.96	na
var4	t1	3mois	an1	1.96	3.4	na
var5	t1	3mois	an1	0.42	4.16	na
var1	t2	3mois	an1	0.07	0.68	na
var2	t2	3mois	an1	0	0	na
var3	t2	3mois	an1	0.1	0.16	na
var4	t2	3mois	an1	1.3	6.56	na
var5	t2	3mois	an1	0.5	0.84	na
var1	t3	3mois	an1	0.15	1.4	na
var2	t3	3mois	an1	0	0.36	na
var3	t3	3mois	an1	4.02	3	na
var4	t3	3mois	an1	0.25	1.52	na
var5	t3	3mois	an1	1.61	4.92	na
var1	t1	5mois	an1	0	0.8	na
var2	t1	5mois	an1	0.215	2.62	na
var3	t1	5mois	an1	0.495	3.34	na
var4	t1	5mois	an1	0.14	1.14	na
var5	t1	5mois	an1	0.045	0.84	na
var1	t2	5mois	an1	0.94	6.3	na
var2	t2	5mois	an1	0.075	1.08	na
var3	t2	5mois	an1	0.085	1.14	na
var4	t2	5mois	an1	0.09	1.36	na
var5	t2	5mois	an1	0.19	1.28	na
var1	t3	5mois	an1	0	1.56	na
var2	t3	5mois	an1	0	0.6	na
var3	t3	5mois	an1	0	0.92	na
var4	t3	5mois	an1	18.35	21.24	na
var5	t3	5mois	an1	34	14.68	na
var1	t1	3mois	an2	9.28	14.24	2.95
var2	t1	3mois	an2	4	8.8	2.92
var3	t1	3mois	an2	3.78	11.84	2775
var4	t1	3mois	an2	0	1	2935.5
var5	t1	3mois	an2	0	1	2605
var1	t2	3mois	an2	0	0.88	2607
var2	t2	3mois	an2	7.58	25.2	2885.5
var3	t2	3mois	an2	0.33	2.04	2776
var4	t2	3mois	an2	7.34	19.48	2892.5
var5	t2	3mois	an2	0.02	1.08	2558
var1	t3	3mois	an2	5.845	12.84	3.93
var2	t3	3mois	an2	0.44	1.42	4.8
var3	t3	3mois	an2	0.07	1.02	3.96
var4	t3	3mois	an2	0.045	1.02	3.88
var5	t3	3mois	an2	6.315	13.24	3.64
var1	t1	5mois	an2	0.475	2.64	3.38
var2	t1	5mois	an2	0.9	4.04	3.54
var3	t1	5mois	an2	0.025	0.96	3.27
var4	t1	5mois	an2	28.97	30.28	2872
var5	t1	5mois	an2	36.1	29.84	3774.5
var1	t2	5mois	an2	0.76	3.72	4442
var2	t2	5mois	an2	0.32	2.32	3663
var3	t2	5mois	an2	14.8	19.48	3726.5
var4	t2	5mois	an2	21.7	30.92	3516.5
var5	t2	5mois	an2	4.36	6.32	4081
var1	t3	5mois	an2	2.3	3.72	3718
var2	t3	5mois	an2	5.5	13.88	2228
var3	t3	5mois	an2	0.05	1.16	1394.5
var4	t3	5mois	an2	0	1.04	1997
var5	t3	5mois	an2	0	0.6	1608
var1	t1	3mois	an3	8.33	17.4	2004
var2	t1	3mois	an3	0.31	3.92	1606
var3	t1	3mois	an3	8.48	16.88	2166.5
var4	t1	3mois	an3	0.01	0.52	1770
var5	t1	3mois	an3	8.125	12.5	1.73
var1	t2	3mois	an3	0.15	1.74	na
var2	t2	3mois	an3	0.015	0.94	2.26
var3	t2	3mois	an3	0.065	0.96	1.79
var4	t2	3mois	an3	13.69	24.8	2.16
var5	t2	3mois	an3	1.165	4.26	1.95
var1	t3	3mois	an3	0.905	2.62	2.43
var2	t3	3mois	an3	0	0.98	2.08
var3	t3	3mois	an3	0.45	2.52	1899
var4	t3	3mois	an3	11.34	20.84	1586.5
var5	t3	3mois	an3	0.18	1.56	2297
var1	t1	5mois	an3	0	0.8	2159.5
var2	t1	5mois	an3	18.6	26.8	1818.5
var3	t1	5mois	an3	0.01	1.2	2161
var4	t1	5mois	an3	0.82	3.8	2120
var5	t1	5mois	an3	0	0.04	2280.5
var1	t2	5mois	an3	2.33	8.4	2761
var2	t2	5mois	an3	0.98	6.24	3094
var3	t2	5mois	an3	0	0.92	2797.5
var4	t2	5mois	an3	0.01	1.12	2468.5
var5	t2	5mois	an3	6.71	16.2	3009.5
var1	t3	5mois	an3	0.4	4.96	2793.5
var2	t3	5mois	an3	2.83	10.56	2875
var3	t3	5mois	an3	0.04	12	2877
var4	t3	5mois	an3	1.245	13	2.96
var5	t3	5mois	an3	0.5	12	2.87
87352

Réponses

  • Bonjour,
    Pour la première et la deuxième question, il faut vraiment que je comprenne bien toutes tes indications pour pouvoir te conseiller. Il me faudra du temps et du travail donc penses-tu que tu auras toujours nécessité d'une aide dans les deux semaines à venir au maximum ?

    Pour la troisième question, je te conseille de regarder les cours de Husson et Pages sur internet, par exemple, sur youtube.

    Pour la dernière question, c'est toujours gênant d'avoir des valeurs manquantes.
    Cordialement.
  • Bonjour, je vous remercie pour le retour. Désolée pour ma réponse tardive, je pensais reçevoir une alerte en cas de réponse et je n'avais pas vu.

    Entre temps j'ai réalisé qu'il y avait des erreurs dans le poids des plantes (voici le fichier exemple_2 en tableau ci-dessous avec ces erreurs corrigées).

    Aussi, mon design expérimental a changé, j'ai réfléchi et je dois inclure un facteur "field treatment", je m'explique:

    pour mon deuxième design expérimental si j’ajoute une variable « Field treatment (oui/non) », c’est-à-dire si avant d’être mis dans les unités la moitié des plantes ont subies un traitement au champs et l’autre moitié non (design expérimental 2) donc dans chaque unité j’ai mes 5 variétés traitées au champs et mes 5 variétés non traitées au champs. Et ensuite chaque unité est traitée avec un produit différent et ceci est répété 3 années de suite.

    Donc dans les variables qui peuvent influencer/expliquer ces mesures j'aurai :
    -variété (N=5)
    -traitement (N=3) (les traitements sont réalisées dans des UE séparées)
    -Field treatment (oui/non)
    -période d'observation en mois (N=2)
    -année de l'essai (N=3 pour variable 1 et 2 et N=2 pour variable 3) = répétitions
    (Voici une photo de mon design expérimental 2 en PJ).

    Merci déjà pour les pistes, je vais aller voir les cours que vous conseillez.
    Oui je pense toujours avoir besoin d'aide pour le choix du modèle et d'explications, si cela vous demande trop de temps, je comprends, vous pouvez peut -être me donner des pistes à suivre.
    Merci par avance pour votre aide.
    Bonne journée.
    Meilleures salutations.

    Mon tableau.
    Variete	Traitement	periode	annee	poids_racines	taille_racines	poids_plantes
    var1	t1	3mois	an1	3.53	8.52	na
    var2	t1	3mois	an1	7.73	14.32	na
    var3	t1	3mois	an1	0.04	0.96	na
    var4	t1	3mois	an1	1.96	3.4	na
    var5	t1	3mois	an1	0.42	4.16	na
    var1	t2	3mois	an1	0.07	0.68	na
    var2	t2	3mois	an1	0	0	na
    var3	t2	3mois	an1	0.1	0.16	na
    var4	t2	3mois	an1	1.3	6.56	na
    var5	t2	3mois	an1	0.5	0.84	na
    var1	t3	3mois	an1	0.15	1.4	na
    var2	t3	3mois	an1	0	0.36	na
    var3	t3	3mois	an1	4.02	3	na
    var4	t3	3mois	an1	0.25	1.52	na
    var5	t3	3mois	an1	1.61	4.92	na
    var1	t1	5mois	an1	0	0.8	na
    var2	t1	5mois	an1	0.215	2.62	na
    var3	t1	5mois	an1	0.495	3.34	na
    var4	t1	5mois	an1	0.14	1.14	na
    var5	t1	5mois	an1	0.045	0.84	na
    var1	t2	5mois	an1	0.94	6.3	na
    var2	t2	5mois	an1	0.075	1.08	na
    var3	t2	5mois	an1	0.085	1.14	na
    var4	t2	5mois	an1	0.09	1.36	na
    var5	t2	5mois	an1	0.19	1.28	na
    var1	t3	5mois	an1	0	1.56	na
    var2	t3	5mois	an1	0	0.6	na
    var3	t3	5mois	an1	0	0.92	na
    var4	t3	5mois	an1	18.35	21.24	na
    var5	t3	5mois	an1	34	14.68	na
    var1	t1	3mois	an2	9.28	14.24	2.9
    var2	t1	3mois	an2	4	8.8	2.18
    var3	t1	3mois	an2	3.78	11.84	2.7
    var4	t1	3mois	an2	0	1	2.5
    var5	t1	3mois	an2	0	1	2.4
    var1	t2	3mois	an2	0	0.88	2.6
    var2	t2	3mois	an2	7.58	25.2	3.2
    var3	t2	3mois	an2	0.33	2.04	2.7
    var4	t2	3mois	an2	7.34	19.48	2.8
    var5	t2	3mois	an2	0.02	1.08	2.5
    var1	t3	3mois	an2	5.845	12.84	2.2
    var2	t3	3mois	an2	0.44	1.42	4.2
    var3	t3	3mois	an2	0.07	1.02	3.9
    var4	t3	3mois	an2	0.045	1.02	2.8
    var5	t3	3mois	an2	6.315	13.24	3.5
    var1	t1	5mois	an2	0.475	2.64	3.5
    var2	t1	5mois	an2	0.9	4.04	2.5
    var3	t1	5mois	an2	0.025	0.96	4.2
    var4	t1	5mois	an2	28.97	30.28	3
    var5	t1	5mois	an2	36.1	29.84	2
    var1	t2	5mois	an2	0.76	3.72	6.2
    var2	t2	5mois	an2	0.32	2.32	4.2
    var3	t2	5mois	an2	14.8	19.48	2.7
    var4	t2	5mois	an2	21.7	30.92	3.56
    var5	t2	5mois	an2	4.36	6.32	4.01
    var1	t3	5mois	an2	2.3	3.72	3.71
    var2	t3	5mois	an2	5.5	13.88	2.28
    var3	t3	5mois	an2	0.05	1.16	13.9
    var4	t3	5mois	an2	0	1.04	1.9
    var5	t3	5mois	an2	0	0.6	1.7
    var1	t1	3mois	an3	8.33	17.4	2.4
    var2	t1	3mois	an3	0.31	3.92	1.6
    var3	t1	3mois	an3	8.48	16.88	2.16
    var4	t1	3mois	an3	0.01	0.52	1.7
    var5	t1	3mois	an3	8.125	12.5	1.73
    var1	t2	3mois	an3	0.15	1.74	na
    var2	t2	3mois	an3	0.015	0.94	2.26
    var3	t2	3mois	an3	0.065	0.96	1.79
    var4	t2	3mois	an3	13.69	24.8	2.16
    var5	t2	3mois	an3	1.165	4.26	1.95
    var1	t3	3mois	an3	0.905	2.62	2.43
    var2	t3	3mois	an3	0	0.98	2.08
    var3	t3	3mois	an3	0.45	2.52	1.8
    var4	t3	3mois	an3	11.34	20.84	4
    var5	t3	3mois	an3	0.18	1.56	3.9
    var1	t1	5mois	an3	0	0.8	2.15
    var2	t1	5mois	an3	18.6	26.8	1.8
    var3	t1	5mois	an3	0.01	1.2	3.4
    var4	t1	5mois	an3	0.82	3.8	2.8
    var5	t1	5mois	an3	0	0.04	2.6
    var1	t2	5mois	an3	2.33	8.4	2.7
    var2	t2	5mois	an3	0.98	6.24	3.2
    var3	t2	5mois	an3	0	0.92	2.7
    var4	t2	5mois	an3	0.01	1.12	2.4
    var5	t2	5mois	an3	6.71	16.2	3.9
    var1	t3	5mois	an3	0.4	4.96	2.7
    var2	t3	5mois	an3	2.83	10.56	3
    var3	t3	5mois	an3	0.04	12	2.9
    var4	t3	5mois	an3	1.245	13	2.96
    var5	t3	5mois	an3	0.5	12	2.87
    
    87610
  • Bonjour,
    Désolé mais j'ai été un peu débordé. Ma remarque est que tes données sont issues non pas d'un plan d'expériences construit en amont mais que tu hérites de données qui ne "collent" pas forcément à un plan bien connu. Qu'en penses-tu ?
    Cordialement.
  • Bonjour,

    merci pour le retour, oui vous avez tout à fait raison. Lorsque je suis arrivée sur mon lieu de travail, les essais étaient déjà en place et je n'ai pas pu choisir le design expérimental en amont.

    Depuis mon dernier message, j'ai pu avoir quelques réponses:

    -d'un point de vue statistique: ce que j'appelle "traitement" correspond en fait à une parcelle et non pas à une unité expérimentale, j'ai donc 3 parcelle car 3 traitements

    - les modalités FT field treatment (treated ou untreated) correspondent à des petites parcelles dans chacune des grandes parcelles


    -mes variétés correspondent à des unité expérimentales


    -mes années sont mes répétitions

    Je joins à ce message le fichier exemple avec la colonne "field treatment" et au format csv.

    En faisant cela je fais lhypothèse suivante :il n'y a pas de différence selon l’emplacement de la variété dans la parcelle, je suppose que c’est homogène.


    En ce qui concerne la période d'observation, on m'a dit qu'il vallait mieux faire 2 analyses séparées pour chacune des dates d'observation.


    Si j'ai bien compris je dois faire un modèle type split plot et le faire pour chacune des dates d'observation et pour chacune des variables mesurées comme ceci:

    splitplot4.mod <- lmer(poids_racines ~ traitement* Field treatment * variete +(1|annee)+(traitement|annee), data=fi)

    Est-ce que c'est correcte? J'ai un message d'erreur qui vient avec cette ligne de code

    Pour ce modèle spli plot je dois vérifier la distribution normale avec le Shapiro test et vérifier l’égalité des variances avec le Levene test mais je dois faire ces analyses sur les résidus et pas sur les données. Savez-vous comment trouver les résidus du split plot / quelle ligne de code écrire pour faire directement le test sur les résidus SVP?

    Meilleures salutations,
    Margot.
  • Entendu. Je vais voir ça avec toi ce week-end à tête reposée si quelqu'un d'autre n'a pas pu t'aider avant. N'hésites pas à me joindre en MP.
    Bien cordialement.
  • Bonjour,
    c'est très gentil, merci. Je reviens vers vous avec le script R si je ne suis pas débloquée.
    Meilleures salutations,
    Margot.
  • En attendant, je te conseille vivement de parcourir le chapitre 7 avec les exemples du livre en pdf de Pierre Dagnelie, (2012), Principes d'expérimentation : planification des expériences et analyse de leurs résultats, Les presses agronomiques de Gembloux : http://www.dagnelie.be/docpdf/ex2012.pdf
    Je te signale que le code R des exemples, comme il est précisé dans le livre, se trouve sur le site de l'auteur : http://www.dagnelie.be/docexr/
    A bientôt.
  • Pas de nouvelles, bonnes nouvelles.
    Bonne continuation.
  • Bonjour,

    merci je vais lire tout ça et je reviendrai vers vous si je suis toujours bloquée.
    Encore merci pour votre précieuse aide et votre réactivité, je n'hésiterai pas à revenir vers vous si cela vous convient.

    Meilleures salutations,
    Margot.
Connectez-vous ou Inscrivez-vous pour répondre.