Critère d'impureté de Gini

Bonjour,

Dans le cas d'un arbre de segmentation avec la méthode CART, le critère de division d'un segment est le critère de Gini. Je peux appliquer ce dernier mais je ne comprends pas sa signification en regard de sa formulation que je souhaiterais retrouver de manière "propre" avec les formules de base des probabilités.

- $t$ est un segment
- les individus sont répartis en $k$ groupes
- $p(r/t)$ la probabilité d'appartenir au groupe $G_{r}$ dans le segment $t$
Le critère de Gini $i\left( t\right) ~$ pour le segment $t$ est donné par :
\[
i(t)=\underset{r\neq s}{\sum }p(r/t)p(s/t)\]
avec l'indication que $i(t)$ représente la probabilité de mauvais classement pour un individu tiré au hasard parmi les individus du segment.

Cordialement.

Réponses

  • Je ne comprends pas grand chose. Il semble qu'on doive choisir un élément parmi $G_1,\ldots, G_m$ avec les probabilités respectives $p_1,\ldots,p_m$ et que si on répète deux fois de suite et indépendamment une telle expérience, c'est-à-dire en tirant $(G_{X_1},G_{X_2})$ alors on s'interroge sur la probabilité de l'événement $(G_{X_1}\neq G_{X_2}).$ C'est évidemment $$i(t)=1-p_1^2-\cdots-p_m^2,$$ mais je crois que je n'ai pas saisi ta question.
  • Bonsoir,

    Tu as bien compris la question et ta réponse l'a éclairée.

    Merci.

    Cordialement.
Connectez-vous ou Inscrivez-vous pour répondre.