Modélisation sur toute la population

ydebain · May 2020

Bonjour
On nous apprend souvent à effectuer des modélisations, comme la régression linéaire, sur un échantillon et à ensuite utiliser des outils de la statistique inférentielle comme les tests. Cependant lorsque l'on travaille avec l'ensemble de la population utiliser la statistique inférentielle ne me semble pas pertinente, d'où mon interrogation de savoir s'il était possible d'effectuer une modélisation statistique comme une régression linéaire lorsque l'on dispose des données de l'ensemble de la population et non un échantillon.
PS : je sais qu'il est possible de contourner le problème en faisant une hypothèse de surpopulation mais j'aimerais avoir la réponse à ma question sans cette hypothèse.
Merci.

gerard0 · May 2020

Bonjour.

Quand on a l'ensemble des données, on peut faire des analyse solides, bien fondées. Y compris faire apparaître des modèles approchés par des méthodes d'analyse de corrélation (statistiques descriptives). Par contre, on ne pourra pas parler de différence significative, puisqu'on ne teste rien. Si les moyennes de deux populations sur une variable commune sont 12,2 et 12,3, elles sont différentes. Et ce n'est pas aux statistiques de décider si cette différence est importante ou pas.
Il m'est souvent arrivé de conseiller à des étudiants en master, voire thèse, de se contenter de statistiques descriptives.

Cordialement.

ydebain · May 2020

Merci beaucoup de m'avoir répondu, c'est bien ce qu'il me semblait à propos de l'utilisation de la statistique inférentielle .
Mais une analyse à l'aide de corrélation ne permet pas de faire de prédiction à ce qu'il me semble alors qu'une régression linéaire par exemple si.
Ne peut on pas alors tout de même effectuer une régression entre plusieurs variable sur l'ensemble de la population ou cela est il exclusif à un échantillon?
Merci

gerard0 · May 2020

Euh ... tu fais une différence, dans ce cas, entre corrélation et régression ?
Les méthodes de régression ont été inventées pour traiter des données complètes.

Vu qu'il n'y a rien d'aléatoire, on a des renseignements précis sur la situation. Pour faire des prédictions, on va supposer que ce qu'on a trouvé restera valable, ou (cas de données temporelles) que tout continuera comme sur la période étudiée.
Ce serait quand même très bizarre qu'on ait moins de moyens de prédiction quand on sait tout de la situation que quand on la connaît imparfaitement.

Cordialement.

ydebain · May 2020

Désolé j'ai du mal comprendre.
J'ai compris par analyse de corrélation le calcul d'indicateur de liaison comme le coefficient de corrélation de Pearson. Et justement il me semble que ces indicateurs ne peuvent être utilisés pour faire de la prédiction.
En fait je voulais dire que la régression permet de faire une prédiction à l'aide d'une équation spécifique ce qui me semble assez utile alors que les indicateurs de liaison ne le peuvent pas. Cependant les modèles de modélisations à ce que j'ai compris repose sur des hypothèses probabilistes et sur des tests sur les coefficients etc.
Je ne comprend donc pas en fait comment faire une régression sur une population étant donné que l'on suppose des hypothèses probabilistes. Pouvez vous m'éclairer plus profondément dessus s'il vous plait?
Merci

gerard0 · May 2020

Si tu parles de modèles probabilistes, ça n'a pas vraiment de sens, mais une droite d'ajustement linéaire n'est pas nécessairement un modèle probabiliste. On cherche seulement la meilleure droite au sens des moindres carrés, par exemple. Voir sur Internet "droites d'ajustement linéaire".
A la limite, même, on considèrera que les variables sont liées par une relation (modèle) brouillée par un "bruit probabiliste", ce qui ramène aux modèles de régression habituels.

Tu devrais prendre un ouvrage de statistiques qui développe les techniques de statistiques descriptives.

Un exemple d'utilisation courante pour faire des prédictions est l'utilisation d'analyses de tendance dans des séries temporelles. Il n'y a pas de choix aléatoire des données, on a toutes les valeurs pour une série de dates, et on essaie de prévoir ce qui va se passer aux dates suivantes. Pas d'échantillon, mais prévision. La plupart des prévisions économiques, ou démographiques, sont construites sur des données complètes.

Cordialement.

lourrran · May 2020

Si tu parles de faire de la prédiction, c'est qu'il manque des données. Si on parle de données temporelles, il te manque les données 'futures'.
Tu n'as donc pas l'ensemble de la population, contrairement à ce que tu dis dans ton 1er message.

gerard0 · May 2020

Tout à fait,

mais dans ce cas, on peut difficilement dire que les données obtenues sont un échantillon représentatif.

En fait, les stats descriptives peuvent être utilisées comme un outil de prédiction "toutes choses égales par ailleurs".
Et les stats inférentielles "sous réserve d'inexistence de biais".

Cordialement.

Modélisation sur toute la population

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 33