Statistiques avec peu de données

maxwell · March 2019

Bonjour
Je voudrais avoir des réponses quant aux méthodes statistiques à employer lorsqu'on a peu de données.

Je me suis renseigné, et j'ai découvert qu'on oppose souvent deux méthodes : les méthodes fréquentistes (celles qui s'emploient lorsqu'on dispose assez de données, avec par exemple : les méthodes d'estimation du maximum de vraisemblance) aux méthodes bayésiennes (vieilles méthodes régies par des modèles bayésiens qui présentent plusieurs inconvénients et sont par conséquence, délaissées, mais qui présentent toujours l'avantage de s'affranchir de la taille des données).

Pour être plus clair, je voudrais savoir : Est-ce que dans la pratique, les modèles bayésiens sont vraiment utilisés lorsqu'on a peu de données ? Et si à part les modèles bayésiens, il y a d'autres méthodes qui s'utilisent pour répondre à ma question ?

Merci d'avance pour vos réponses.

gerard0 · March 2019

Bonjour.

l'opposition entre modèles bayésiens et modèles "classiques" (pas nécessairement fréquentistes) ne repose pas sur le nombre de données, mais sur l'utilisation ou pas de modèles à priori, non justifiables. Et encore ... on ne s'en prive pas vraiment en statistiques "non-bayésiennes".

Si on a très peu de données, et pas d'autre information, on peut difficilement dire ce qui va se passer ou ce qui s'est passé. Par exemple mes moyennes de trimestre en quatrième étaient 7,5, 7,5 et 10 (sur 20). Peux-tu en déduire mes moyennes en troisième ou en cinquième ?
Si je te donne d'autres renseignements (*), tu trouveras plus facilement.

Cordialement.

(*) premier de ma classe en cinquième, je suis passé dans un établissement de niveau bien plus élevé, et mis un an à rattraper mon niveau

maxwell · March 2019

Bonsoir Gerard0
Du coup, peut-on quand même faire certaines choses (appliquer des variantes de modèles, si elles existent) avec peu de données ou non ? d'après ce que j'ai compris de votre exemple, on ne peut rien conclure...

Si par exemple, je voulais faire une régression de Y en fonction des variables explicatives (X₁, X₂, X₃) avec peu d'observations pour ces 4 variables (pas assez pour que le Théorème Central Limite ou Loi des Grands Nombres soient vérifiés), cela n'aurait-il plus de sens ? Car tous mes tests et intervalles de confiance qui se basent sur des propriétés asymptotiques et qui me permettent d'apprécier mon modèle de régression ne sont plus applicables ?

En prenant un autre exemple, je sais que : dans le cas d'un tableau de données dont le nombre de variables excède le nombre d'individus (p>n), il y a des problèmes d'inversion de matrice, ce qui a pour conséquence de délaisser des modèles de régression classiques pour des modèles améliorés voire même différents (régression Lasso, régression Ridge, régression PLS, ...). Je sais que ce [que] je veux est différent, mais n'y aurait-il pas d'autres modèles plus pertinents juste pour le cas (n petit) ? Je pensais qu'on pouvait s'affranchir de la petite taille de n des individus, avec des modèles Bayésiens...

Si vous connaissez des articles sur les méthodes à appliquer / ne pas appliquer selon les contraintes de données, cela m'intéresserais, car mes cours de statistiques ne disent pas trop comment s'y prendre avec peu de données, ce qui peut [être] le cas en pratique en entreprise. Parce qu'on nous parle de Big Data, mais il reste cependant des phénomènes très difficiles à mesurer et à observer (terrorisme, cyber-attaques).

Merci d'avance pour vos réponses.

gerard0 · March 2019

Avec peu de données, on peut déjà faire des stats descriptives, des ajustements (si on a une idée de ce qui est utile : linéaire, quadratique, ..). Mais évidemment, les propriétés asymptotiques n'ont plus de sens (déjà, faire du Student avec 30 valeurs lorsqu'il n'y en a que 2 ou 3 possibles est absurde, alors avec 10 ...).
Voilà pourquoi les renseignements extra-statistiques sont des plus importants. En contrôle de production, on fait des stats à répétition (des tests) avec 5 valeurs dans les cartes de contrôle. Mais on sait que s'il n'y a pas dérive de la fabrication, les valeurs mesurées suivent une loi Normale de moyenne connue et surtout d'écart type connu et à peu près invariable.

Les modèles bayésiens sont justement très utiles quand on a des connaissances autres, permettent de créer des modèle à priori et de les ajuster au fur et à mesure des données. Sans trop rêver : avec peu de connaissances, on peut difficilement agir efficacement.

Cordialement.

Statistiques avec peu de données

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 25