Variance et classification

moustache · October 2018

Bonjour TLM,

Voilà j’ai un échantillon constitué de 5 classes. Sachant que les classes n’ont pas le même nombre d’individus. J’aimerais calibrer une loi normale sur cette échantillon. Pour le premier paramètre soit mu, c’est facile, par contre pour le paramètre de la variance’ c’est plus compliquer car je n’ai pas forcément une indépendance entre les classes. Ma question est la suivante comment je peux estimer la variance dans le cas ou je n’ai pas forcément une indépendance entre les classes ?

J’ai pensé à passer par une copule qui prendrait en compte la dépendance entre mes classes, mais je n’ai pas le même nombre d’individus dans les classes.

Merci de m’aider.

gerard0 · October 2018

Bonjour.

Comment as-tu estimé mu ?

Cordialement.

moustache · October 2018

La moyenne dans chaque classe, puis la somme des moyennes.

gerard0 · October 2018

La somme des moyennes ??? Bizarre ! Ça fait plus que le centre de la dernière classe !!

En considérant l'hypothèse raisonnable faute d'information que les valeurs sont équiréparties dans chaque classe, on approxime la moyenne générale par la moyenne arithmétique des centres de classe pondérée par les effectifs des classes. Et ça peut être très faux si les classes sont de largeurs différentes, avec des classes extrêmes très larges.

Peut-être devrais-tu commencer par lire un cours de statistiques descriptives (disons première année BTS commercial) ?

Cordialement.

moustache · October 2018

Bonsoir Gerrard, je n’ai effectivement pas donné l’ensseble
Des détails.
Je m’explique: j’ai 400 zones de risques dans mon portefeuille Chaque zone possède une prime pure ( esperence de la charge sinistre de la zone). Je veux à présent calibrer une distribution de probabilités de la prime pure globale du portefeuille. Supposons que cette dernière suit une loi Normal de paramètre mu qui est la
Somme de toutes les espérances de charge ( Par linéarité de l’esperence ) mais je bute sur l’estimation de la variance car j’ai des zones Qui sont dépendantes entre elles.Donc je me suis si je fais une CAH des zones de risque afin de constituer des paquets homogènes. Ainsi je calcule la variance de chaque paquet puis je somme les variances. Mais rien ne dit que j’ai une indépendance entre les paquets, d’ailleurs je peux mm pas calculer la corrélation entre les paquets car je
N’ai pas le mm effectifs dans chaque paquet.
Je ne sais’pas si tu vois ce que je veux faire ?

gerard0 · October 2018

Je vois. Et je ne sens pas trop ta façon de faire, qui complique la situation.

D'autres auront peut-être une idée, s'ils ont fait des études de modélisation financière.

Cordialement.

sullivan · October 2018

Bonjour,

Pour calculer une variance avec des données dépendantes, tu peux utiliser la notion de graphe. Pour cela, il faut introduire dans le calcul une matrice d'adjacence A :

A(i, j) = 1 si les observations i et j sont dans le même paquet, 0 sinon

Ainsi tu tiens compte de la dépendance puisque seules les couples d'observations connectées sont prises en compte pour le calcul de la variance

C'est un peu technique, pour les formules tu peux te référer à l'article (p14-15) : https://hal.archives-ouvertes.fr/hal-00146365/document

Cordialement

Achillo · December 2018

Bonjour. Svp je voudrais commencer un travail sur les méthodes de classification non supervisée et j'aimerais si possible que vous me guidiez sur les pré-requis. Merci d'avance.

sullivan · December 2018

Bonjour,
Vaste sujet...
Il y a à mon avis 3 axes à explorer :

- par partitionnement (k-means et ses variantes).
- hiérarchique (arbre et mesures de dissimilarité).
- probabiliste (algorithme EM et ses variantes).

Bon courage

Variance et classification

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 7