Transformer un tableau de variable aléatoires
Bonsoir,
Je dispose d'un tableau à valeurs numériques, à trois colonnes et ou les échantillons de ces colonnes sont supposés suivre des lois de variables aléatoires quelconques non indépendantes et non identiquement distribuées, je note COV la matrice de covariance de ce tableau initial. Je souhaite savoir comment passer de ce tableau à un tableau à trois colonnes qui sont des variables aléatoires N(0,1) et qui sont donc i.i.d.
j ai pensé à appliquer à chaque colonne leur fonction de répartition respectives ( fonction de répartition empirique, si la loi n'est pas connue ) afin que chaque colonne suive une loi uniforme sur [0,1] dans un premier temps. Puis de leur appliquer l'inverse de la fonction de répartition d'une loi N(0,1) afin que chaque colonne suive une loi N(0,1). normalement, tout ce premier raisonnement est bon ??
Maintenant, Si mon premier raisonnement est juste, alors je souhaiterai connaitre les transformations à appliquer pour le problème inverse, j'ai pensé à refaire les memes transformations mais dans le sens inverse, mais en faisant cela est ce que je passe bien d'un tableau ayant une matrice de covariance Id, à un tableau ayant une matrice de covariance égale à COV ?? si non, alors comment faire ??
Merci d'avance pour vos réponses.
Je dispose d'un tableau à valeurs numériques, à trois colonnes et ou les échantillons de ces colonnes sont supposés suivre des lois de variables aléatoires quelconques non indépendantes et non identiquement distribuées, je note COV la matrice de covariance de ce tableau initial. Je souhaite savoir comment passer de ce tableau à un tableau à trois colonnes qui sont des variables aléatoires N(0,1) et qui sont donc i.i.d.
j ai pensé à appliquer à chaque colonne leur fonction de répartition respectives ( fonction de répartition empirique, si la loi n'est pas connue ) afin que chaque colonne suive une loi uniforme sur [0,1] dans un premier temps. Puis de leur appliquer l'inverse de la fonction de répartition d'une loi N(0,1) afin que chaque colonne suive une loi N(0,1). normalement, tout ce premier raisonnement est bon ??
Maintenant, Si mon premier raisonnement est juste, alors je souhaiterai connaitre les transformations à appliquer pour le problème inverse, j'ai pensé à refaire les memes transformations mais dans le sens inverse, mais en faisant cela est ce que je passe bien d'un tableau ayant une matrice de covariance Id, à un tableau ayant une matrice de covariance égale à COV ?? si non, alors comment faire ??
Merci d'avance pour vos réponses.
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Si tes variables sont non indépendantes et que tu leur appliques des transformations différentes, le tableau obtenu n'a plus de sens immédiat : dire qu'il est iid est assez étrange, les séries ne sont pas à priori indépendantes, mais leur lien de dépendance a été complexifié.
Cordialement.
mais si mes N(0,1) ici ne sont pas indépendantes, comment je pourrais procéder pour quelles soient indépendantes ?? si j'ai bien compris ce qui gène c'est les transformations suivantes : quand j'applique à mes colonnes les 3 fonctions de répartition empirique respectives qui sont toutes les trois distinctes les unes des autres, ce qui complexifie les corrélations, mais je ne vois pas comment faire autrement pour les transformer en Loi uniforme sur (0,1), Avant de les transformer en N(0,1) ??
pour pallier à ces difficultés, j'ai pensé à :
- faire mon raisonnement (appliquer les fonctions de répartition puis l'inverse de la fonction de répartition d'une loi N(0,1) ) mais rajouter en dernier une étape supplémentaire : ajuster une copule indépendante aux trois lois N(0,1), ou multiplier mes colonnes N(0,1) par la transformation de choleski inverse de la matrice de covariance de ces N(0,1) qu'on note souvent : (grand sigma)^(-1/2). si je me trompe pas, multiplier les données par cette matrice permet de les normaliser (de les réduire) et dans les calculs de covariance, la matrice de covariance sera transformée en l'identité
ou alors :
- faire en sorte que mon tableau initial subisse d'abord une transformation qui rende les trois colonnes indépendantes, (ajuster une copule indépendante aux trois colonnes de lois quelconques, ou multiplier mes colonnes par la transformation de choleski inverse de la matrice de covariance de ces trois colonnes ) puis refaire mon raisonnement (appliquer les fonctions de répartitions puis l'inverse de la fonction de répartition d'une loi N(0,1) ).
comment trouvez vous ce raisonnement ??
J'aurais pu tenter de vérifier le tout par le code sur python ou R, mais je préfère toujours m'assurer d'avoir un bon raisonnement mathématiquement correct avant de passer aux codes.
Plus gênant : Tu ne travailles manifestement pas sur les variables elles-mêmes mais sur des réalisations de ces variables. Le mot "indépendantes" veut-il encore dire quelque chose dans ce cas ? "issues de lois dépendantes" (ou indépendantes) a un sens, mais c'est quoi des réalisations dépendantes de 2 lois ?
Je comprendrais mieux si tu utilisais un outil correspondant aux lois sous-jacentes et à leur loi conjointe.
Cordialement
Corrélations de l'échantillon, corrélation des lois , corrélations des réalisations de lois ?? Je n'en sais rien, jamais vu la différence, je vous prie de m'expliquer, s'il vous plaît.
Cordialement.
on obtient bien des coefficients de corrélation entre les séries (colonnes, dans ton cas). C'est même de la statistique purement descriptive. Si on sait que les différentes séries sont des valeurs obtenues par échantillonnage aléatoire (donc des séries de réalisations de trois variables sous-jacentes), on peut faire des statistiques inférentielles, et par exemple tester si les variables sous-jacentes sont dépendantes ou pas (pas, mais avec un certain risque de se tromper, choisi au départ, ou systématiquement le même).
Mais pour les réalisations on parle de coefficient de corrélation, corrélation
* soit entre les séries en tant que telles; rien à voir alors avec la corrélation des variables aléatoire, simple tendance des valeurs à évoluer dans le même sens ou en sens inverse;
* soit entre les variables aléatoires dont on a des réalisations, et ce coefficient réel obtenu est une estimation du véritable coefficient de corrélation, inconnu.
Pour aller plus loin, il faut vraiment étudier un cours de statistiques, en particulier les modèles linéaires.
Cordialement.