Statistiques : perte ou gain d'informations

Bonjour,

je travaille actuellement sur le formalisme de Fisher qui fait partie d'une théorie plus générale, celle de l'information. Mon problème s'applique à l'estimation que je peux tirer de paramètres à partir de données d'entrée. Le contexte est Astrophysique mais ça peut s'appliquer à de nombreux sujets.

Comme ça relève plus de la statistique que de l'Astrophysique, j'ai posté ici sur ce forum.

Voici un résumé : les données d'entrées sont 4 colonnes de données, la première représentant le redshift des galaxies (leur distance en gros) et ensuite les 3 autres correspondent chacune au biais (c'est-à-dire en gros à l'incertitude sur leur position) d'un type de galaxie donné : il y a donc 3 types de galaxies donnés et une valeur par redshift (8 redshifts en tout). J'ai donc un tableau de 8x3.

Voici le fichier de biais pour les 3 populations (b1, b2, b3) en fonction du redshift (première colonne):

# z (redshift) b1 b2 b3
1.7500000000e-01 1.1133849956e+00 0.0000000000e+00 0.0000000000e+00
4.2500000000e-01 1.7983127401e+00 0.0000000000e+00 0.0000000000e+00
6.5000000000e-01 0.0000000000e+00 1.4469899900e+00 7.1498329000e-01
8.5000000000e-01 0.0000000000e+00 1.4194157200e+00 7.0135835000e-01
1.0500000000e+00 0.0000000000e+00 1.4006739400e+00 6.9209771000e-01
1.2500000000e+00 0.0000000000e+00 0.0000000000e+00 6.8562140000e-01
1.4500000000e+00 0.0000000000e+00 0.0000000000e+00 6.8097541000e-01
1.6500000000e+00 0.0000000000e+00 0.0000000000e+00 6.7756594000e-01


Maintenant, je cherche à faire du croisement de données pour essayer d'extraire de l'information supplémentaire car par exemple, pour le premier type de galaxie (b1), je n'ai que les 2 premiers biais qui sont non nuls (je veux dire pour les 2 premiers redshifts), et pour le troisième type (b3), j'ai 6 valeurs diffférentes de 0 pour les 6 redshifts supérieurs aux 2 précédents.

Mon prof m'a donc suggéré de fusionner la première colonne (correspondant au premier type de galaxie) avec la troisième (correspondant au troisième type b3), de manière à obtenir un vecteur unique avec uniquement des valeurs pour le biais non nulles). Je simule ainsi un traitement "single population" (population unique) avec uniquement des valeurs de biais non nulles (d'ailleurs c'est le but, éviter les valeurs nulles).

1) D'un point de vue statistique, y'aura t-il une perte ou un gain d'informations si je fais cette fusion des 2 colonnes ?. Le problème semble assez complexe car tout dépend de la valeur des données.

2) Un autre point de vue évoqué par mon prof : si je prends un échantillon et que je le coupe en 2 parties, si je fais du croisement de données (cross-corrélations) entre les 2 sous-ensembles obtenus, vais-je gagner ou perdre de l'information au niveau des paramètres que je vais en tirer ?

Il pense qu' à priori, je ne peux pas perdre de l'information (ce qui paraît intuitif car couper un échantillon en 2 n'est pas une perte d'infos en soi) mais que tout dépend du fait si je connais ou pas avec précision le ratio des biais entre les 2 sous-échantillons (j'ai pas trop compris cette notion de ratio entre les biais).

Je suis donc à la recherche d'informations sur ce problème, peut être que sur ce forum, des statisticiens pourront m'aider dans cette technique de cross-correlations et le fait de savoir ou pas si on gagne ou on perd de l'info en réunissant plusieurs sources d'informations.

Je pense que le gain ou la perte d'info sera fonction de la redondance des données (on parle d'entropie de Shannon je crois).

3) Je pourrais aussi faire du croisement de donnée entre des données overlappées pour 2 colonnes de données (2 valeurs pour chaque redshift) mais là je pense que c'est encore un autre problème d'un point de vue statistique : d'ailleurs , je parle au début de croisement de données avec la fusion de 2 vecteurs mais le terme "cross-correlation" est plutôt défini dans le cas de valeurs overlappées, non ? Quelle est la définition du "croisement de données" en statistiques ? Est-ce que ça correspond forcément au terme anglo-saxon "cross-correlation" ?

Cependant, dans les 2 cas, on croise des données, d'une certaine manière.

Pour l'instant, dans mon algorithme, je traite les 2 premières valeurs du 1er type de population en "single population", les 3 autres overlappées entre le second et le 3ème type en mode "cross-corrélation", et les 3 dernières du 3ème type de population en mode "single population", ce qui fait bien 8 bins au total (je veux dire 8 redshifts) : on parle alors de 2 "auto-spectres" et d'1 spectre overlappé.. Là aussi, est-ce que je vais gagner ou perdre de l'information d'un point de vue global ? (il n'y a priori que le spectre overlappé qui peut m'en faire gagner).

Ma mesure sur le gain d'informations dont je parle depuis le début se fait avec le calcul de contraintes en inversant la matrice de Fisher, ce qui me donne la matrice de covariance et donc la variance et la corrélation des paramètres que je veux estimer : plus les écarts types obtenus sont petits, plus le gain d'informations est important.

Vos avis sur la question sont précieux et me permettront de mieux comprendre la logique de cette histoire de "croisement de données".

Toute aide est la bienvenue.

PS: si le sujet vous semble être posé sur le mauvais forum, n'hésitez pas à le déplacer dans le sous-forum approprié
Merci

Réponses

  • Bonjour,
    J'ai lu ton post avec intérêt mais, comme souvent, il va s'agir surtout d'une histoire de temps parce que des questions plus "convenues". Je ne garantis pas une réponse.
    Bien cordialement.
  • Bonjour,
    Je n'arrive pas à comprendre la situation. Pourrais-tu m'expliquer comment lire une ligne de ton tableau ? Pour n'importe quelle ligne (valeurs fantaisistes), on lit pour la valeur du "redshift" égale à 2 alors pour chaque type de galaxie :
    - b1 on trouve une erreur sur le "redshift" de 0.00005,
    - b2 l'erreur sur le "redshift" est 0.00000,
    - b3 l'erreur sur le "redshift" est 0.0000009.
    Est-ce cela ? Est-ce que le type de galaxie est véritablement important ? Peux-tu m'expliquer la problématique comme à un enfant de six ans (mon âge mental à peu près)?
    Cordialement.
    p. s. merci aux modérateurs du phorum pour la patience qu'ils ont pour remettre mes posts d'aplomb lorsqu'il le faut. Big up !
  • Bonjour @jma,
    excuse moi, le fichier était mal formaté. En réalité, c'est un tableau (8x4) (8 lignes correspondant chacune à un reshift (première colonne) et le biais de chaque type de galaxie (3 autres colonnes) pour chaque valeur de redshift) :
        0.1750    1.1134         0         0
        0.4250    1.7983         0         0
        0.6500         0    1.4470    0.7150
        0.8500         0    1.4194    0.7014
        1.0500         0    1.4007    0.6921
        1.2500         0         0    0.6856
        1.4500         0         0    0.6810
        1.6500         0         0    0.6776
    
    Par exemple, pour un redshift égal à 0.175, on a une info sur le biais du premier type de population (1.1134) et pas d'info pour les 2 autres types de galaxie (valeurs nulles pour la 2ème et 3ème colonne).

    Maintenant, je cherche à faire un traitement statistique avec ces données input.
    Dans le formalisme de Fisher, on parle de "quantité d'informations" : ça peut être vu comme de l'entropie (entropie de Shannon). Par exemple, + les échantillons sont divers, nombreux et pas redondants, + l'information est très riche et donc l'entropie aussi (comme dans la théorie de l'information).

    1) J'ai plusieurs approches pour essayer d'extraire de l'info à partir de ces données, et surtout gagner de l'info par rapport aux situations où j'ai des valeurs nulles pour les biais (ces valeurs n'apportent rien d'un point de vue statistique).
    1a) Soit fusionner par exemple les 2 premières valeurs pour le premier type de population avec les 6 valeurs de la troisième (troisième type de population), ceci afin d'éviter comme j'ai dit des valeurs nulles.
    1b) Soit faire traitement "cross-correlation" pour les 3 bins partagés entre la 2ème et la 3ème population.

    2) Je recherche aussi des infos sur le gain d'informations que je peux avoir si je coupe un échantillon en 2 sous-échantillons, est-ce que je vais gagner en faisant du cross-correlation entre les 2 sous-échantillons par rapport à la situation où je ne traiterai que l'échantillon de départ ?

    A priori, mon prof dit qu'on ne peut pas perdre de l'information en coupant l'échantillon de départ en 2 sous-échantillons, ce qui parait intuitif mais comment le prouver ???
    C'est un exemple simple mais ça pourrait beaucoup m'aider car c'est plus ou moins ce que je fais en fusionnant 2 colonnes de types de galaxies et ça pourrait me renseigner sur le gain que je peux en tirer en faisant cela.

    Désolé si le sujet est un peu technique mais j'aimerais avoir l'avis/conseils/feedback de statisticiens car je n'ai pas assez de background pour bien saisir ce formalisme de Fisher.
    Merci.
  • Voilà, je vais revoir la théorie de Shannon et de Fisher car il y a quelque chose que je ne comprends pas dans cette démarche (cela vient de moi, je pense). Pour le côté technique, c'est ce qui fait en partie le sel des statistiques de pouvoir aborder très modestement différentes disciplines.
    Je ne comprends pas ton idée de prendre des biais d'un type de galaxies pour combler la valeur manquante (pas manquante mais nulle) d'un autre type de galaxies. En poussant, à l'extrême le raisonnement pourquoi ne pas utiliser seulement deux colonnes : une redshift et une biais (indifféremment le biais de b1, b2 ou b3). La perte est de ne plus avoir de distinction entre les galaxies.
    Le cadre de l'information de Fisher qui m'est familier est celui qui concerne la qualité d'un estimateur (variance d'un estimateur dans certaines conditions ne peut être plus petite que la borne de Cramer-Rao) et l'intervalle de confiance d'un estimateur du maximum de vraisemblance. La cross-correlation m'est aussi familière pour les processus stochastiques et autres.
    Il me semble étrange de considérer que cela n'impactera pas quelle que mesure que ce soit de scinder en deux un échantillon. De plus, il n'y a qu'au grand maximum 32 valeurs ce qui n'est pas énorme.
    Conclusion : il faut que je m'implique vraiment dans ton problème mais à condition qu'on arrive finalement à une conclusion convenable tous les deux ?
    Dans l'affirmative, tu peux me contacter en messagerie privée.
    Bien cordialement.
  • En fait, il ne s'agit pas de vocable ou de notions de cosmologie. Personnellement, je pense que tu ne sais pas trop ce que tu veux faire et, la théorie de l'information, je ne vois pas en quoi elle pourrait t'aider. Si, par exemple, tu me dis : je veux connaître le biais sur ma mesure principale ou encore puis-je trouver un moyen d'approximer les valeurs qui sont manquantes...etc. Entendu mais sinon j'ai des données, j'ai un théorie et je veux les mettre en correspondance sans autres éléments..
    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.