Bootstrap sur les lignes d'un tableau

Bonjour
J'aurai quelques questions sur une procédure que j'ai menée.
J'ai généré un tableau de données X à 1000 lignes et 3 colonnes en simulant 1000 réalisations d'une loi normale standard, d'une loi exponentielle de paramètre 3 et d'une loi chi-2 de degré de liberté 2. Ensuite j'ai effectué une sorte de ré-échantillonnage sur les lignes du tableau, c'est-à-dire : j ai créé un nouveau tableau Y (de même dimension que X) où chacune de ses lignes est une ligne de X tirée au hasard et avec remise parmi toutes les autres lignes.

J'ai ensuite essayé de comparer les deux tableaux, au niveau des propriétés statistiques (matrice de corrélation, moyenne, écart-type, min, max, etc.), du nuage de points et même au niveau des distributions des marginales (des colonnes). Et j'ai remarqué que ces quantités étaient très proches et donc que les tableaux étaient très similaires (même s'ils étaient différents).

Y a-t-il moyen de comprendre pourquoi ? Et de pouvoir dégager un aspect mathématique de pourquoi ça marche ?
Enfin je voudrais savoir dans le cas d'un seul échantillon à une dimension, si on peut avoir une idée en moyenne sur le pourcentage de nombres identiques après avoir réchantillonné (i.e : tiré avec remise dans le même échantillon).

J'ai entendu dire que ça aurait peut-être un rapport avec un problème en probabilités connu sous le nom de problème des enveloppes ou même problème des chapeaux ( "matching problem" en anglais). J'ai lu des articles sur le bootstrap et le jacknife, mais je n'y ai pas trouvé ce qui pourrait répondre à mes questions.
Merci d'avance pour vos réponses.

Réponses

  • Bonjour.

    la loi de la variable aléatoire "vecteur ligne tiré au hasard" est exactement la loi de la distribution des vecteurs lignes. Et il est tout à fait normal qu'un échantillon suffisamment important ait les mêmes caractéristiques que la population dont il est tiré.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.