Échantillon et population

Bonsoir,

J'ai un échantillon de 65000 valeurs (valeurs réelles positives), et je voudrais tester la normalité de cet échantillon (c'est-à-dire ajuster une loi normale sur cet échantillon par maximum de vraisemblance, récupérer les paramètres puis tester l'adéquation de cet ajustement avec des tests statistiques : QQ-plot, test de Kolgomorov-Smirnov, Shapiro Wilk, etc....) et par la même occasion refaire le même processus pour tester l'adéquation [à] d'autres lois de probabilités existantes (Gamma , Exponentielle, Uniforme, Pareto, ...).

Cependant, l'algorithme que j'ai crée met beaucoup trop de temps (il tourne pendant deux minutes pour une procédure pas du tout complexe ou longue à réaliser)... et pour certaines raisons que j'ignore encore (peut-être : échantillon trop grand, et/ou trop hétérogène) il m'affiche souvent des messages d'erreurs par rapport à l'échec de l'optimisation faite par la méthode du maximum de vraisemblance.

Et c'est là que je vous pose cette question : et si je faisais l'ajustement/tests sur un plus petit échantillon pour qu'il n'y ait pas de problème ?

Et si cela est cohérent, alors comment choisir ce sous-échantillon de manière à ce que je puisse conclure que : si mon sous-échantillon suit une loi normale (avec un certain risque d'erreur), alors je peux affirmer (avec un risque d'erreur bien sûr) que mon échantillon en entier suit la loi normale ?

J'ai pensé au tirage avec remise (du genre Bootstrap), est-ce bien cela ?? Est-ce que mon problème a une solution ?

Merci d'avance pour vos réponses.

Réponses

  • Bonjour.

    Tout d'abord, pour tester la Normalité d'un échantillon (ou d'une population), pas besoin de "fitter" une loi Normale sur les valeurs; les tests classiques (Shapiro Wilks, par exemple) suffisent. Par contre, il est extrêmement rare que des données réelles aussi nombreuses réussissent un test de Normalité (ou tout test d'adéquation à une loi donnée) : plus les individus sont nombreux, plus la moindre déviation au modèle est mise en évidence.

    Si tes données sont trop nombreuses pour être directement utilisées, avec les moyens informatiques dont tu disposes, tu peux effectivement procéder par simulation sur des échantillons pris au hasard. Tu prends le risque d'une erreur supplémentaire (de premier ou de seconde espèce), mais tu y gagnes le fait de pouvoir utiliser sainement les méthodes statistiques, construites pour des échantillons de taille modeste (au maximum quelques milliers).
    Mais ce ne sera pas un "bootstrap", qui fabrique, avec un échantillon réduit, une simulation de population de plus grande taille. Et comme ça ne coûte pas cher, un échantillonnage sans remise sera évidemment préférable.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.