Variance et classification

Bonjour TLM,

Voilà j’ai un échantillon constitué de 5 classes. Sachant que les classes n’ont pas le même nombre d’individus. J’aimerais calibrer une loi normale sur cette échantillon. Pour le premier paramètre soit mu, c’est facile, par contre pour le paramètre de la variance’ c’est plus compliquer car je n’ai pas forcément une indépendance entre les classes. Ma question est la suivante comment je peux estimer la variance dans le cas ou je n’ai pas forcément une indépendance entre les classes ?

J’ai pensé à passer par une copule qui prendrait en compte la dépendance entre mes classes, mais je n’ai pas le même nombre d’individus dans les classes.

Merci de m’aider.

Réponses

  • Bonjour.

    Comment as-tu estimé mu ?

    Cordialement.
  • La moyenne dans chaque classe, puis la somme des moyennes.
  • La somme des moyennes ??? Bizarre ! Ça fait plus que le centre de la dernière classe !!

    En considérant l'hypothèse raisonnable faute d'information que les valeurs sont équiréparties dans chaque classe, on approxime la moyenne générale par la moyenne arithmétique des centres de classe pondérée par les effectifs des classes. Et ça peut être très faux si les classes sont de largeurs différentes, avec des classes extrêmes très larges.

    Peut-être devrais-tu commencer par lire un cours de statistiques descriptives (disons première année BTS commercial) ?

    Cordialement.
  • Bonsoir Gerrard, je n’ai effectivement pas donné l’ensseble
    Des détails.
    Je m’explique: j’ai 400 zones de risques dans mon portefeuille Chaque zone possède une prime pure ( esperence de la charge sinistre de la zone). Je veux à présent calibrer une distribution de probabilités de la prime pure globale du portefeuille. Supposons que cette dernière suit une loi Normal de paramètre mu qui est la
    Somme de toutes les espérances de charge ( Par linéarité de l’esperence ) mais je bute sur l’estimation de la variance car j’ai des zones Qui sont dépendantes entre elles.Donc je me suis si je fais une CAH des zones de risque afin de constituer des paquets homogènes. Ainsi je calcule la variance de chaque paquet puis je somme les variances. Mais rien ne dit que j’ai une indépendance entre les paquets, d’ailleurs je peux mm pas calculer la corrélation entre les paquets car je
    N’ai pas le mm effectifs dans chaque paquet.
    Je ne sais’pas si tu vois ce que je veux faire ?
  • Je vois. Et je ne sens pas trop ta façon de faire, qui complique la situation.

    D'autres auront peut-être une idée, s'ils ont fait des études de modélisation financière.

    Cordialement.
  • Bonjour,

    Pour calculer une variance avec des données dépendantes, tu peux utiliser la notion de graphe. Pour cela, il faut introduire dans le calcul une matrice d'adjacence A :

    A(i, j) = 1 si les observations i et j sont dans le même paquet, 0 sinon

    Ainsi tu tiens compte de la dépendance puisque seules les couples d'observations connectées sont prises en compte pour le calcul de la variance

    C'est un peu technique, pour les formules tu peux te référer à l'article (p14-15) : https://hal.archives-ouvertes.fr/hal-00146365/document

    Cordialement
  • Bonjour. Svp je voudrais commencer un travail sur les méthodes de classification non supervisée et j'aimerais si possible que vous me guidiez sur les pré-requis. Merci d'avance.
  • Bonjour,
    Vaste sujet...
    Il y a à mon avis 3 axes à explorer :

    - par partitionnement (k-means et ses variantes).
    - hiérarchique (arbre et mesures de dissimilarité).
    - probabiliste (algorithme EM et ses variantes).

    Bon courage
Connectez-vous ou Inscrivez-vous pour répondre.