"Splicing" vs "curve fitting" par tranche
Amis forumeurs, bonjour !
Je viens vers vous avec une question concernant le "curve fitting" ie trouver une distribution approximant le mieux des données que j'ai.
Ce qui me pose problème c'est la méthode que l'on me demande de suivre.
Imaginons que j'ai 10000 réalisations d'une loi de probabilité inconnue par exemple des montants de sinistres.
On peut essayer de modéliser la totalité de ces données par une distribution de probabilité ou bien on peut supposer que les données sont dûes à la "juxtaposition" de plusieurs distributions et utiliser la méthode de "splicing" (on obtient une distribution qui par exemple suit la distribution exponentielle sur la première tranche suivie par une [large]P[/large]areto pour la tranche supérieure). Jusqu'ici tout va bien.
On me demande de couper les données en plusieurs tranches et de trouver la probabilité de distribution sur chaque tranche.
Ainsi, je dois trouver disons par exemple une distribution pour les sinistres de 0 à 1 mio, de 1 mio à 5 mio etc.
Je ne suis pas sûr si cela à un sens et je ne suis pas confortable avec cette approche ...
- Je ne connais pas une distribution définie sur intervalle 1 à 5 mio (à part la distribution uniforme etc.), quitte à normaliser les données.
Est-ce que vous pensez que mes inquiétudes sont fondées ?
Merci.
Cordialement.
[Vilfredo Pareto (1848-1923) prend toujours une majuscule. AD]
Je viens vers vous avec une question concernant le "curve fitting" ie trouver une distribution approximant le mieux des données que j'ai.
Ce qui me pose problème c'est la méthode que l'on me demande de suivre.
Imaginons que j'ai 10000 réalisations d'une loi de probabilité inconnue par exemple des montants de sinistres.
On peut essayer de modéliser la totalité de ces données par une distribution de probabilité ou bien on peut supposer que les données sont dûes à la "juxtaposition" de plusieurs distributions et utiliser la méthode de "splicing" (on obtient une distribution qui par exemple suit la distribution exponentielle sur la première tranche suivie par une [large]P[/large]areto pour la tranche supérieure). Jusqu'ici tout va bien.
On me demande de couper les données en plusieurs tranches et de trouver la probabilité de distribution sur chaque tranche.
Ainsi, je dois trouver disons par exemple une distribution pour les sinistres de 0 à 1 mio, de 1 mio à 5 mio etc.
Je ne suis pas sûr si cela à un sens et je ne suis pas confortable avec cette approche ...
- Je ne connais pas une distribution définie sur intervalle 1 à 5 mio (à part la distribution uniforme etc.), quitte à normaliser les données.
Est-ce que vous pensez que mes inquiétudes sont fondées ?
Merci.
Cordialement.
[Vilfredo Pareto (1848-1923) prend toujours une majuscule. AD]
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
Si une telle modélisation est envisagée, c'est qu'elle s'appuie sur une étude d'incidence qui a statué qu'une telle tranche de sinistres est majoritairement réalisée par un sinistre d'une nature donnée (du style accident de voiture, dont la fréquence d'apparition suit une certaine loi de probabilité et qui est similaire sur tout le territoire) alors qu'une autre tranche est mieux modélisée par un type de sinistre d'une toute autre nature (accident industriel, dont la fréquence d'apparition dépend de la densité d'industries d'une région), par exemple.
C'est juste une piste pour dire que cela peut se justifier, par contre vous ne semblez pas avoir connaissance de cette étude d'incidence, ni de ses conclusions et on vous demande de générer une forme de "connaissance par réalisation", peut-être dans le but de valider les choix suivis par votre compagnie.
À bientôt.
Cherche livres et objets du domaine mathématique :
Intégraphes, règles log et calculateurs électromécaniques.
D'accord , dans les cas où il y a des raisons de penser qu'une partie des sinistres est dû à un process autre que le reste des sinsitres.
Mon cas est un peu plus brutal; on a des tranches et on veut trouver une distribution qui modeliserais la taille des montants de sinsitres sur cette tranche. Par example on met tous les sinistres de montant entre 1 et 5 million dans la tranche 1-5 et on cherche à trouver une distribution qui les modéliserait.
Je suis embété car je ne connais qu'une seule distribution qui a comme support l'intervalle 1 à 5 million (La distribution uniforme); les autres mettront des poids non nullls en dehors de cette intervalle ....
Je suis preneur de toute proposition/suggestion
Merci
B.
A priori, il y a une infinité de distributions sur l'intervalle [1,5], même si peu ont des noms. Toute fonction positive d'intégrale 1 sur [1;5] te donne une distribution de probabilité (nulle en dehors de [1;5]). Donc ce n'est pas nécessairement dans les distributions classiques qu'il faut chercher.
Il y a des outils classiques de détermination de densités adaptées à un échantillon de valeurs, à commencer très élémentairement par des histogrammes, jusqu'aux estimateurs à noyaux. Tu peux regarder les ouvrages de stats au chapitre "estimation d'une densité".
Mais déjà, tu peux regarder si un histogramme des fréquences, utilisé comme outil de prédiction est à peu près correct : Tu utilises une partie des données pour fabriquer ton estimateur, puis tu vérifies sur le reste qu'il n'est pas trop faux. En prenant les données par date, tu verras si le temps joue.
Attention aux problèmes générés par les arrondis. Si 1 million est une valeur plus fréquente simplement par arrondi (soit dans le relevé des données, soit même dans le résultat d'une négociation de remboursement), l'histogramme est à faire sur un intervalle plus large. Et ce n'est pas grave que les intervalles de simulation se recouvrent.
Cordialement.
Malheuresement, je ne peux pas utiliser des distributions quelque peu 'exotiques', car l'outil qui est alimenté par ces distributions n'utilise que des distributions classiques (c'est un outil standard);
Je suis en train de considerer la famille de distribution Beta General ....
Cordialement
B.