Fonctions sur les ensembles (et itérations)

Bonjour à tous,
je suis débutant en algèbre et j'essaye d'exprimer sous forme algébrique un processus d'analyse statistique. Pouvez-vous me dire si mon exposé respecte bien les normes d'écriture, et s'il correspond à ce que j'ai fait (sous R).

Contexte : j'ai une base de données avec une dizaine d'espèces (environ 100 lignes par espèces et en colonne des variables quantitatives). J'ai calculé la distance euclidienne entre 20 observations de chaque espèces tirées au hasard (en considérant toutes les variables quantitatives) et j'ai recommencé le processus un nombre croissant de fois (en calculant la moyenne des distances obtenues à chaque fois), pour montrer qu'on atteint une certaine régularité dans les résultats à partir d'un nombre suffisant de réplicas (voir fig. suivante):

IrYmt.jpg

(1 ligne colorée : distance euclidienne d'une espèce par rapport à l'espèce $h$)

Pour expliquer le processus, je détaille ici le calcul de la distance entre l'espèce $a$ et l'espèce $h$
  • On définit les ensembles $R_\alpha$ et $R_h$ comme les jeux de données d'origine
\[R_{\alpha}=\left\{1,2,3,4,\ldots,n\mid n\in\mathbb{N}\text{ et }\ n\geq21\right\}\\
R_{h} = \left \{ 1,2,3,4,\ldots,n\mid n\in \mathbb{N}\text{ et }\ n\geq 21\right \}
\]
  • On définit $S_\alpha$ et $S_h$ comme des sous-ensemble propres de $R_\alpha$ et $R_h$, composés de 20 éléments tirés au hasard dans $R_\alpha$ et $R_h$, sans replacement, tel que la probabilité $P(r)$ qu'un élément soit sélectionné est :
\[
P(r) = \frac{(N-n)!}{N!}\\
S_{\alpha }\subset R_{\alpha }\text{ et }\ S_{h}\subset R_{h},\text{ avec }\ n(S)=20
\]
  • Ensuite on définit la fonction suivante pour calculer la distance euclidienne moyenne entre tous les éléments de $S_\alpha$ et de $S_h$ :
\[
f(x,y)=\frac{1}{n'}\sum_{j=1}^{n'}\bigg( \sqrt{\sum_{i=1}^{n}(y_i-x_i)} \bigg)_j,
\] avec $n = 20$ (variables) et $n'= 20$ (éléments tirés au hasard ; taille de $S_\alpha$ et de $S_h$).
  • Ensuite on définit l'ensemble $D$, qui contient la distance euclidienne entre $S_\alpha$ et $S_h$ :
\[
d_{(\alpha ,h)}=\left \{ f(x,y) \mid x\in S_{\alpha }\text{et} \ y\in S_h \right \}
\]
  • Enfin, on définit l'ensemble $B$ qui contient le nombre d'itérations (bootstrap) de l'ensemble du processus, depuis le tirage aléatoire (avec replacement entre chaque itérations, donnant une probabilité $P(r) = 1/N$ qu'un élément soit tiré entre les itérations) à la complétion de l'ensemble $D$. La formule suivante $f(x)$ permet de constituer l'ensemble $M$ :
    \begin{align*}
    B&\approx \left \{ 1*1.6^x \mid x\in \mathbb{N}_0\text{ et }\ 0\leq x\geq 20 \right \}\\
    f(x)&=\frac{1}{n''}\sum_{l=1}^{n''}x_l\\
    M_{(\alpha ,h)}&=\left \{ f(x)\mid x\in D\text{ et }\ n''\in B \right \},
    \end{align*} avec $B$, en arrondi à l'entier.
    Principalement, je me demande si j'ai bien le droit de construire l'ensemble $M(\alpha,h)$ comme cela, particulièrement avec l'appel de $n''$ dans $f(x)$... ? Normalement $M(\alpha,h)$ contient la distance euclidienne moyenne pour 1 itération, puis 2 itérations, puis 3 itérations, puis 12089 itérations, suivant la formule utilisée pour peupler $B$.
    Merci pour votre aide !!

    [En $\LaTeX$, ce sont toutes les expressions mathématiques que l'on encadre par des $\$$. AD]
Connectez-vous ou Inscrivez-vous pour répondre.