Expliquer la "part" d'une corrélation
dans Statistiques
Bonjour
J'aurais besoin de votre aide sur une question de corrélation entre plusieurs variables.
Je possède 3 variables quantitatives absolues. Une de production, une de rendements et une de superficies. J'aimerais savoir, puisque ces variables sont corrélées (augmentation de la production due à l'augmentation des rendements ainsi que des surfaces), la "part" que représente chaque variable sur la variable explicative.
C'est assez mal formulé mais par exemple, je voudrais savoir de combien a progressé la production grâce aux surfaces et de combien a progressé la production grâce aux rendements.
Je précise que je possède un échantillon de 40 valeurs pour chaque variable.
Je vous remercie d'avoir pris le temps de me lire.
À bientôt.
J'aurais besoin de votre aide sur une question de corrélation entre plusieurs variables.
Je possède 3 variables quantitatives absolues. Une de production, une de rendements et une de superficies. J'aimerais savoir, puisque ces variables sont corrélées (augmentation de la production due à l'augmentation des rendements ainsi que des surfaces), la "part" que représente chaque variable sur la variable explicative.
C'est assez mal formulé mais par exemple, je voudrais savoir de combien a progressé la production grâce aux surfaces et de combien a progressé la production grâce aux rendements.
Je précise que je possède un échantillon de 40 valeurs pour chaque variable.
Je vous remercie d'avoir pris le temps de me lire.
À bientôt.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Quand tu écris "la "part" que représente chaque variable sur la variable explicative", tu veux dire "la "part" que représente chaque variable sur la variable expliquée", j'imagine, rendement et superficie étant des variables explicatives.
Si tu considères que la production ne dépend que de ces deux éléments (rendement et superficie), une analyse de variance va expliquer de quelle façon chacune d'elles contribue à la variation de la production. Si tu penses que bien d'autres facteurs influencent la production, tu peux faire une analyse de régression si tu as une petite idée des liens entre les trois variables (linéaire à priori). Mais cela suppose en fait que les autres facteurs sont constants. Si ce n'est pas le cas, il faut les identifier.
Cordialement.
1° point :
Tu dis que tu as 40 valeurs pour chaque variable. Je suppose qu'il s'agit de 40 parcelles, pour lesquelles tu as le triplet (surface/Rendement/ Production) ... parce que si tu as les surfaces de 40 parcelles, les rendements de 40 autres et les productions de 40 autres, ça ne va pas beaucoup aider.
Bon, sur ce point, je chipote.
2°point, plus sérieux :
Tu parles de 'progression' : ça veut dire que tu as 2 périodes, avec les informations sur les 40 parcelles sur chacune des 2 périodes.
Ou peut-être, tu as une seule parcelle, mais tu as 40 périodes ???
Et dans ce cas, ça devient assez différent comme problème.
3°point :
A priori, on n'a pas de raison de penser que le rendement va dépendre de la surface. Est-ce que tu confirmes ça ? Ou alors, les surfaces sont entourées d'arbres par exemple, et il y a un biais, la surface mesurée est un peu plus grande que la surface réellement exploitable. Et la surface perdue serait significative pour les petites parcelles, et pas pour les grandes ... Ou je ne sais quel phénomène de ce genre.
A-t-on une raison de penser que le rendement dépend de la surface ?
Les statistiques ne font pas de miracle, et on ne peut commencer à répondre à ta question qu'en proposant au préalable un modèle (que dans ce cadre on va appeler modèle statistique), c'est-à-dire en faisant un ensemble d’hypothèses sur le lien présumé entre variables explicatives et variable d’intérêt. La prédiction statistique met ensuite à profit le modèle pour estimer la valeur de variables non-observées dans un nouveau scénario, au vu de données d'observations. Il n'existe pas un seul outil statistique qui ne suive ce schéma (il y a bien-sûr des approches traditionnellement présentées de sorte que les hypothèses sous-jacentes restent implicites, ce qui n'invalide en rien mon propos).
Je te suggère donc de réfléchir dans un premier temps à l'aspect de modélisation, même de façon simplifiée. Tu pourras toujours t'y ramener comme à un modèle "de base" auquel comparer des modèles en apparence plus sophistiqués. Quelle forme penses-tu que prenne la dépendance entre ces variables ?
Il y a une étape préliminaire, qui est de visualiser tes données. Avec trois variables, c'est facile, cela se prête à un plot en $3$D, ou bien des projections multiples en $2$D (cf. "pairwise plot"... en python seaborn.pairplot, en matlab plotmatrix).
Sinon, tu peux sortir un outil au hasard de ton slip et l'appliquer comme une boîte noire. Comme disent les anglo-saxons : "caca en entrée, caca en sortie".
Cordialement ;-)
* Le rendement $\rho$ est une variable intensive, sa valeur ne dépend pas de la superficie*, mais d'autres facteurs cachés (qualité de l'outillage, du terrain, aspects génétiques, etc.)
* La superficie $S$ est une variable extensive, la production aussi.
* La production dépend linéairement de la superficie, via le rendement $p = \alpha \cdot \rho\cdot S$. A supposer que la production ne soit jamais négative :-D, on peut réécrire les choses de façon additive: $\log{p} = \log{\rho} + \log{S} + a'$.
* Du bruit de mesure est présent dans les données que tu as recueillies. Par exemple, le classique $\log{p_{obs}} = \log{p} + \epsilon$, pour une certaine distribution de bruit/erreur sur $\epsilon$. Mais tu peux imaginer du bruit un peu comme tu veux (quitte à créer des problèmes d'identification), par exemple sur toutes les variables : $p = a(1+\epsilon) \cdot (\rho+\delta)\cdot (S+\delta')$. La visualisation des données; les contraintes (par exemple de positivité des grandeurs) et l'expertise dans le domaine peuvent guider le choix.
A l'issue de cette étape de modélisation, tu vois que ta tâche principale est simplement de déterminer $a'$ grâce aux données. Dans ce cas c'est assez trivial.
Rétrospectivement tu peux analyser les prédictions du modèle, ainsi que réévaluer la pertinence des hypothèses introduites. Cela peut t'amener à corriger et complexifier le modèle de façon choisie*, et itérer. C'est l'approche qui me semble la plus pragmatique lorsqu'on souhaite un modèle qui marche, qui plus est avec $40$ points de données. Idéalement mieux vaut s'appuyer sur des modèles déjà proposés que partir de zéro...
* exemple: la superficie a un impact sur le rendement du fait des coûts matériels. Tu peux a nouveau jeter un œil au graph $\rho=f(S)$ et modéliser cette fonction, puis l’insérer dans le modèle de production mis à jour.
Encore une question qui a entraînée un effort vain de réponses. Je ne suis pas un parangon de politesse ni de quoi que ce soit d'ailleurs mais un simple message de l'initiateur aurait été correct à moins qu'il ne parvienne.
Cordialement