Sélection de variables pour segmentation — Les-mathematiques.net The most powerful custom community solution in the world

Sélection de variables pour segmentation

Titre initial : Analyse de données - Selection de variables pour segmentation
[Un titre doit être concis. AD]

Bonjour.

Je suis actuellement en stage pour 2 mois au sein d'une banque.
Je dois réaliser une segmentation des clients selon leur biais d'entrée en relation (crédits, assurance...) et leur parcours d'équipement sur un an.
Comment sélectionner les variables les plus pertinentes pour ma segmentation parmi la tonne d'informations que j'ai à disposition ?
Je suis un peu perdu.

Merci d'avance.

Réponses

  • Bonjour
    Si j'ai bien compris : 1ère variable : comment le client l'est-il devenu : publicité, ami, ...
    2ème variable : qu'a-t-il fait cette année : nb d'affaires, montant, positives ou non.
    Ces options sont des exemples à coder pour la 1ère par p, a,....
    et pour la 2ème : en tranches 1000 1000 à 10000 10000 à 100000,..... avec + ou -.de façon à avoir 5 pu 6 options pour chaque variable. +1, +2, +4, -3, -5
    Choix à adapter selon la réalité.
    Cordialement
    Koniev
  • Merci de ta réponse Koniev. Je n'ai pas bin saisi ton histoire de 1000 1000 à 10000 10000??

    En fait, j'aimerais trouver une méthode statistique qui me permettrait de déterminer de manière automatique les variables les plus pertinentes pour ma segmentation.

    Par exemple, j'aimerais obtenir comme type de résultat:

    l'âge du client discrimine beaucoup les segments tandis que le sexe du client très peu.

    J'avais pensé à un test du khi deux, mais je n'ai pas de variable cible comme en AFD.

    Comment faire??

    Merci d'avance!
  • Bonjour,

    N'est-ce pas automatique en segmentation puisqu'à chaque pas de la segmentation on retient la dichotomie qui rend maximal la distance entre deux classes. Du coup les variables les moins pertinentes n'entrerons que dans les dernières branche de l'arbre de segmentation. Ensuite pour les enlever tu élagues l'arbre.

    Cordialement,
    bd.
  • Je me suis mal exprimé. Il s'agit d'une classification, et non d'une segmentation que je dois réaliser. Je n'ai pas de variables cibles.

    Merci de ton aide bd.
  • Bonsoir Jingle9.

    Quand on ne connaît pas trop un domaine, on commence par se faire former par ceux qui le connaissent ("retour d'expérience"). Pour toi, les personnes de la banque qui sont en relation avec les clients. L'idéal serait de pouvoir créer un groupe de travail, mais si ce n'est pas possible, une enquête pourrait te permettre de progresser. de trouver une segmentation "logique", adaptée à la réalité, compréhensible par un banquier.

    Sinon, il ne faut pas rêver : Si tu n'as aucune connaissance sur la structuration des données, tu ne feras pas de statistiques avec. Par contre, tu peux toujours faire semblant : Faire n'importe quel calcul, même idiot, deux ou trois tests, pour impressionner les non initiés, et du baratin avec des grands mots. Mais pas besoin d'avoir des connaissances véritables.
    Mais j'imagine que ce n'est pas ce que tu veux faire.

    Cordialement.

    NB : "une méthode statistique qui me permettrait de déterminer de manière automatique les variables les plus pertinentes" ! Ce serait génial ! Plus besoin de réfléchir, plus de science, rien que des calculs... mais "ça n'existe pas, ça n'existe pas".
  • Bonjour
    Si tu veux connaître les facteurs les plus actifs essaie la régression . Les plus actifs sont ceux qui ont le coeff le plus grand, si positif ils augmentent le score du client et inversement..
    Exemple : 231 = 23 x âge + 2 x sexe - 0.5 x nationalité
    pour beaucoup de poids pour l'âge, peu pour le sexe (tous 2 positifs) et la nationalité a une influence négative mais presque nulle, on peut donc ne pas en tenir compte..
    Cordialement
    Koniev
Connectez-vous ou Inscrivez-vous pour répondre.
Success message!