Probabilité d'erreur et décision bayésienne

Bonjour,

J'étudais l'approche bayésienne pour la reconnaissance des formes et le livre dans lequel j'étudie, je trouve, manque une certaine rigeur et j'aimerais vous demander comment calculer de manière rigoureuse la probabilité d'erreur afin de montrer que la règle de décision bayésienne est optimale.

On a $\Omega$ qui est l'ensemble de toutes les formes, c'est notre univers d'événements. A chaque forme on associe une représentation (un ensemble de caractéristiques) dans $\mathbb{R}^{d}$ et on dispose d'un vecteur aléatoire $X$ de $\Omega$ vers \mathbb{R}^{d}. Nous prenons comme tribu sur $\Omega$ l'ensemble de toutes ses parties et comme tribu sur $\mathbb{R}^{d}$ la tribu borélienne. Nous avons aussi $K$ classes, ce qui se traduit par un système complet d'événements $(\omega _{i})_{i=1,...,K}$. Notons qu'il est impossible que deux élévenements dans deux parties différentes puissent avoir la même représentation (c'est "par la pratique" non par théorie). Notons $d$ la fonction qui à une représentation $x$ de $\mathbb{R}^{d}$ associe sa classe $i$. On associe une probabilité $P$ pour $\Omega$ et $P_{X}$ sur $\mathbb{R}^{d}$. Avec bien sûr $P_{X}(A)=P(\{\omega \in \Omega | X(\omega)\in A \})$ (si $A$ appartient à la tribu borélienne bien sûr).
Nous prenons aussi le vecteur aléatoire qui à une forme associe directement sa classe véritable $T$.

La règle de décision bayésienne s'énonce ainsi : pour tout $x \in \mathbb{R}^{d}$ $d(x)=i$ si $P(\omega_{i}|x)\geq P(\omega_{j}|x)$ pour tout $j=1,...,K$ ce qui est équivalent à, en utilisant la règle de Bayes, $P(x|\omega_{i}).P(\omega_{i})\geq P(x|\omega_{j}).P(\omega_{j})$ pour tout $j=1,...,K$.

Pour calculer la probabilité d'erreur $E_{b}(x)$ associée à la décision $d(x)$ prise pour le vecteur $x$, le texte part comme cela : $E_{b}(x) = Prob(d(x)\neq T(x))$
Alors là je ne comprends pas quelle probabilité c'est $Prob$ mais en continuant on trouve :
$E_{b}(x) = 1 - Prob(d(x)=T(x)) = 1 - P(d(x)|x)$

Déjà le vecteur $T$ n'agit pas sur $\mathbb{R}^{d}$ mais disons que $T(x) = T(\{\omega \in \Omega | X(w)=x\})$. Je ne sais toujours pas ce qu'est $Prob$ mais comment le fait que la probabilité qu'on "se dise" (c'est le choix dicté par la règle de décision bayésienne) que la classe de $x$ est $T(x)$ c'est $P(d(x)|x)$ .

Pour moi la probabilité $P(d(x)|x)$ serait la probabilité de l'événement $d(x)$ dans l'ensemble $\{\omega \in \Omega | X(\omega)=x\}$ sauf que ce n'est pas possible puisque $d$ opère sur $\mathbb{R}^{d}$.

J'espère que vous pourrez m'aider à comprendre cette étape importante de l'approche bayésienne. En fait c'est surtout comment " la probabilité que $x$ appartienne à la classe $\omega_{i}$ est $P(\omega_{i}|x)$ ".

Merci d'avance.

Réponses

  • Bonjour PolVano,

    Tentative de réponse en deux étapes en reprenant un peu en amont de ta question. Le modèle bayésien d'abord, la prédiction bayésienne ensuite.

    La prédiction bayésienne s'appuie sur un modèle statistique (rejointe en cela par l'approche fréquentiste). Dans ton exemple, tu sembles dire que tu as des caractéristiques de formes $x\in\mathbb{R}^d$ qui sont déterminées par la classe $c\in\{1\cdots C\}$ de l'objet :
    $$c \rightarrow x\, .$$
    Le modèle probabiliste est entièrement spécifié par :
    - la probabilité conditionnelle $p(x|c)$.
    - la probabilité a priori $p(c)$ de chaque classe.
    On suppose donc que dans le monde réel, la population est échantillonnée selon $(x,c)\sim p(x,c)=p(x|c)p(c)$.

    C'est tout pour le modèle. Ma suggestion, laisse momentanément tomber les tribus et les univers. La théorie des probabilités, ainsi que les résultats de théorie de la décision, sont bien faits pour justement rester cohérents après abstraction de l'univers de départ... seule la loi (jointe) des variables aléatoires comptent !

    La seule différence entre bayésiens et fréquentistes, c'est que les premiers sont disposés à munir l'espace de paramètres de leurs modèles d'une mesure (sigma-finie, généralement mesure de probabilité). Dans ton exemple disons pour simplifier que c'est analogue au fait de munir $c$ d'un a priori $p(c)$. Cela va donner du sens à la distribution a posteriori.

    La probabilité a posteriori de la classe $c$, informée par une observation $x$, est par définition la distribution $p(c|x)\propto p(c)p(x|c)$. Un résultat majeur de statistiques bayésiennes est que la distribution a posteriori $p(c|x)$ contient toute l'information pour une prédiction optimale de la classe $c$ ayant observé $x$. Le résultat est fondé sur un principe de minimisation du risque bayésien (de façon équivalente, maximisation de l’utilité bayésienne).

    J'illustre sur ton exemple dans une deuxième partie de message, et la réponse à ta question s'ensuit.
  • Appelons règle de décision une fonction $d: x\in\mathbb{R}^d\mapsto d(x)\in\{1\cdots C\}$ qui associe à une observation $x$ une prédiction $d(x)$ de la classe de l'objet associé. On va voir en substance que la probabilité a posteriori est suffisante pour définir une règle de décision optimale, au sens d'un coût d'erreur $\mathcal{E}(c,d(x))$ (arbitraire, que l'utilisateur choisit).

    Le risque bayésien associé à une règle de décision $d$, est le coût de (l'erreur de) prédiction, moyenné sur l'ensemble des "possibles", des "scénarios contrefactuels" :
    $$\mathcal{R}[d]\triangleq \mathbb{E}_{p(x,c)}[\mathcal{E}(c,d(x))]\, .$$
    Cela formalise l’idée que la règle de décision $d$ doit bien fonctionner sur l'ensemble des scénarios qui auraient pu avoir lieu. "Bien fonctionner", au sens du coût utilisateur $\mathcal{E}$ et des probabilités respectives $p(x,c)$ de chaque scénario, induites par le modèle statistique. Un petit calcul* qui justifie au passage l'introduction de la distribution a posteriori $p(c|x)$, montre que le risque bayésien :
    $$\mathcal{R}[d]= \int_x p(x) \underbrace{\left(\int_c p(c|x) \mathcal{E}(c,d(x)) dc\right)}_{\triangleq \mathcal{R}_x[d]} dx = \int_x p(x) \mathcal{R}_x[d] dx\, ,$$
    se décompose comme une somme de coûts $\mathcal{R}_x[d]$ par observation (pondérée par sa probabilité $p(x)$ d'occurrence). Donc minimiser $\mathcal{R}[d]$ par rapport à la fonction $d$ revient à trouver, indépendamment pour chaque $x\in\mathbb{R}^d$, un $d(x)\in\{1\cdots C\}$ qui minimise $\mathcal{R}_x[d]$. La donnée de
    $$d^*(x)\triangleq \text{argmin}_{d(x)} \int_c p(c|x) \mathcal{E}(c,d(x)) dc\, ,$$
    définit donc une règle de décision optimale par rapport au risque bayésien. Elle satisfait le contrat annoncé : ne dépendre que du coût de prédiction $\mathcal{E}$ et de la loi a posteriori $p(c|x)$. Son existence est garantie lorsque l'espace des décisions $\{1\cdots C\}$ est fini. L’unicité ne l'est bien-sûr pas.

    Pour illustrer, posons $\mathcal{E}(c,d(x)):= \left\{ \begin{array} 11 \text{ si } c\neq d(x) \\ 0 \text{ sinon} \end{array}\right. \, .$ Un calcul rapide donne $d^*(x) = \text{argmin}_c 1-p(c|x) = \text{argmax}_c p(c|x)$.


    * Le calcul qui fait apparaître $p(c|x)$ en multipliant/divisant à la deuxième ligne par la marginale $p(x)\triangleq \int_c p(x,c) dc = \int_c p(x|c)p(c)dc$ de $x$ :

    $\begin{equation}
    \begin{split}
    \mathcal{R}[d] &= \iint_{x,c} p(x|c)p(c) \mathcal{E}(c,d(x)) \, d(x,c)\, , \\
    \, &= \iint_{x,c} p(x)\cdot \underbrace{p(x|c)p(c)/p(x)}_{\triangleq p(c|x)} \cdot \mathcal{E}(c,d(x)) \, d(x,c)\, , \\
    \, &= \int_x p(x) \left( \int_c p(c|x) \cdot \mathcal{E}(c,d(x)) \, dc\right) dx\, ,
    \end{split}
    \end{equation}$
  • Bonjour,

    Merci beaucoup pour votre réponse, c'était très enrichissant.
    J'ai une question par rapport au modèle probabiliste. Lorsque vous dîtes qu'il est entièrement spécifié par les probabilités conditionnelles $p(x|c)$ et les probabilités a priori $p(c)$, c'est parce qu'à partir de ces données on peut retrouver les probabilités a posteriori $p(c|x)$ ? Enfin, il faudrait aussi les probabilités $p(x)$ mais on peut les obtenir grâce à la formule des probabilités totales.

    Donc si j'ai bien compris, dans le monde réel, on va munir l'ensemble des classes par une probabilité a priori par exemple le nombre de fois qu'une classe apparaît divisé par le nombre total des apparitions (toutes classes confondues). Par exemple si on a relevé 5000 images de chiffres et que le chiffre 3 est répété 538 fois alors on va prendre sa probabilité 538/5000. Puis la probabilité $p(x|c)p(c)$ je pense qu'on ne peut pas la déterminer de telle façon. Car même en ne prenant que les images du chiffre 3 alors on n'observera exactement $x$ qu'une seule fois à cause du bruit ... donc on va supposer que $p(x|c)$ suit une loi (loi normale par exemple) et on déterminera ses paramètres par les calculs de moyenne et variance. Et grâce à ca, on a accès à la probabilité a posteriori qu'on pouvait pas calculer avant. Et c'est pour ça que le modèle probabiliste est entièrement déterminé par les probabilités conditionnelles et a priori.

    Je pense que grâce à votre séparation entre coût et risque j'ai bien compris pourquoi la décision bayésienne est la meilleure. J'ai surtout compris en fait ce qui se cachait derrière. Car dans le livre seule la notion de risque est introduite et sous l'appellation de coût.
    Et je pense que votre développement est très essentiel et plus correct parce que le livre compare les décisions sans introduire le coût alors qu'on ne pourrait pas dire que la règle de décision $d*(x) = argmax_{C} p(c|x)$ donne un risque (par rapport à $x$) plus faible que celui d'une décision avec un coût qu'on ne connaît pas (puisqu'on ne peut pas développer l'intégrale pour comparer les deux résultats). Donc il serait plus correcte de dire qu'à coût donné, la décision bayésienne est la meilleure (forcément puisqu'on prend $argmin$ et que c'est possible de le prendre car $C$ est fini).

    J'espère que j'ai bien compris ce que vous m'avez expliqué et que j'ai bien pu le restituer.

    Merci encore.

    J'ai modifié le message pour vous demander si vous pouvez me conseiller un livre qui explique toute cette théorie derrière la reconnaissance des formes de manière rigoureuse. J'ai peur de m'avancer dans le livre que j'ai sous la main avec de telles imprécisions.
  • Cool si ça a pu t'aider.

    Re: modèle entièrement spécifié. Je voulais dire que poser $p(x,c):=p(x|c)p(c)$, puis définir $p(c)$ et $p(x|c)$ est suffisant pour :
    [-] Générer des données $(x,c)\sim p(x,c)$.
    [-] Calculer toutes les distribution marginales et conditionnelles sur ces variables, comme tu l'as vu pour $p(x)=\int_c p(x|c)p(c)dc$. Tu n'as pas d'autre degré de liberté dans le modèle : si $p(c)$ et $p(x|c)$ sont données, la loi jointe est fixée et donc tout est fixé.

    En fait le procédé est très général. Si tu as des variables $\mathbf{v}$, tu peux faire l’hypothèse d'une factorisation de la loi jointe $p(\mathbf{v})\triangleq \prod_i p(v_i|\mathbf{pa}_i)$ où $\mathbf{pa}_i$ sont les $v_j$ parents de $v_i$. On peut décrire cela de façon équivalente via un modèle graphique* (ex. $c\rightarrow x$). Il ne reste plus qu'à expliciter chacun des facteurs (ex. $p(c)$ et $p(x|c)$).

    On parle aussi de modèle génératif, car le modèle prétend décrire explicitement la façon dont les données sont générées.

    Pour ton deuxième paragraphe, c'est tout a fait ça. Remarque, tu pourrais aussi décider que la fréquence empirique d'apparition de chaque classe ne reflète pas la distribution réelle $p(c)$ des classes (parce que biais de collection des données ?) ; et fixer cette dernière selon d'autres arguments.

    Re: risque / coût / distribution a posteriori : je suis bien d'accord. Tu as le livre de James Berger Statistical Decision Theory and Bayesian Analysis qui décrit bien les aspects de décision bayésienne. Il me semble que cette approche justifie bien l'importance de la loi a posteriori, sans résumer hâtivement la décision bayésienne à $\text{argmax}_c p(x|c)$, qui n'est qu'un corollaire valide pour certains coûts**.

    Re: livres. Ne cherche pas un livre qui parle avec rigueur à la fois d'analyse de formes et de théorie statistique et bayésienne. Pour de la théorie de la décision probabiliste, le livre de Berger va droit au but. Pour de l'apprentissage automatique (machine learning) orientée bayésien : Bishop ; Hastie, Tibshirani et Friedman ; Barber, et j'en oublie. Ce sont de bons livres à mi-chemin entre théorie et pratique.

    Pour la reconnaissance de forme ? Ça dépend quoi en pratique. Trois exemples avec des contraintes techniques très différentes :
    $1$. classification d'objets, parmi des millions possibles, dans des images
    $2$. reconnaissance ou génération de maillages (meshes) de chaises, tables, avions et de centaines d'autres objets
    $3$. description statistique (générative) précise de la variabilité géométrique sur une population d'$1$ objet, animal ou organe donné, représenté comme maillage ou image binaire.

    Pour $1.$, il y a peu d'analyse de forme (bien que sur quelques problèmes ciblés on puisse s'appuyer sur une représentation intermédiaire, avec des primitives géométriques saillantes extraites au préalable), mais il y a beaucoup de traitement de l'image et d'apprentissage automatique (en particulier, deep learning). C'est peu matheux, donc je me tournerais plutôt vers des supports dynamiques et récents tels que les cours en ligne de Stanford.

    Cordialement.



    * Utilise ce mot-clé pour en savoir plus. On peut dire beaucoup via le modèle graphique sur quelles variables dépendent de quelles autres. Cela a des tas d'implications théoriques, algorithmiques, pratiques et sur des questions de sémantique statistique (association vs. causation, etc.).

    ** Si un scorpion que j’aperçois n'est pas d'une espèce dangereuse ($c=1$) mais inoffensive ($c=0$) avec probabilité $p(c=0|x)=0.8$, je vais malgré tout faire attention :-D Mon coût subjectif $\mathcal{E}(c=0,d(x)=1)\ll \mathcal{E}(c=1,d(x)=0)$ est asymétrique (je préfère être pleutre mais vivant). Cela déplace le seuil sur $p(c|x)$, si bien que peut-être $d^*(x):=1$ ssi $p(c=1|x)<10^{-6}$ :-D

    Pour être rigoureux, il faudrait d'ailleurs remarquer que ma décision $d(x)\in\mathcal{A}$ ne porte pas sur un choix de classe mais sur un choix d'action dans un espace d'action $\mathcal{A}=\{\text{caresser le scorpion}, \text{laisser mon voisin s'y coller}\}$... Le concept de coût $\mathcal{E}(c,a)$ avec $c\in\mathcal{C}$ et $a\in\mathcal{A}$ s'adapte parfaitement... ($\mathcal{A}=\mathcal{C}$ n'est qu'un sous-cas).
  • Bonjour
    Grand merci pour votre réponse. Elle est très enrichissante. Et merci pour les références, je n'hésiterai pas à les consulter.
Connectez-vous ou Inscrivez-vous pour répondre.