Distance en variation totale

Bonjour l'assemblée,
J'ai vague souvenance que si on a deux probabilités de densités respectives $f$ et $g$, la distance en variation totale entre elles est $k\times \int\min(f,g)$ avec $k=\frac{1}{2}$ ou $k=2$, je ne sais plus.
Est-ce exact ? Sinon je confonds certainement avec quelque chose, y a-t-il une autre distance en relation avec $\int\min(f,g)$ ?

EDIT : sorry ce serait plutôt $2(1-\int\min(f,g))$

Réponses

  • Y'a des trucs dans le sujet Cachan 3A 2011 dont j'ai écrit un corrigé. Bon, c'est sur un espace dénombrable, mais ça donne des idées
    http://www.iecn.u-nancy.fr/~garet/annales-cachan/
  • Bien compliqué d'écrire $2(1-\int \min(f,g))$ à la place de $\int|f-g|....$
  • Il y a quelques petites choses à ce sujet (et sur des sujets proches) dans le polycopié de cours de Charles Suquet intitulé Eléments de statistique asymptotique (que l'on trouve en deux clics à partir de Google).
  • Merci à vous. Oui et non Gérard, car $\int \min(f,g)$ est plus facile à visualiser.
  • Je ne vois pas non plus comment on peut préférer l'affreuse formule avec le min à l'autre mais tous les goûts sont dans la nature.

    La deuxième formule a l'immense avantage de montrer que ce n'est rien d'autre que la restriction d'une norme archi-classique.

    Exercice : combien de temps mettrais un étudiant (de L3, M1 ?) pour réaliser, avec la première formule, que c'est nul quand $f=g$ pp ?
  • y'a pas que des étudiants dans la vie !!

    $\int\min(f,g)$ s'appelle "l'overlap", et les praticiens des statistiques voient immédiatement sur un dessin que $f=g$ quand l'overlap fait $1$ - va leur dire que l'autre formule est mieux parce que c'est une norme machin, tu verras comment tu seras reçu !!
  • Calculateur d'overlap, pas calculateur de norme machin !!
  • Bah... c'est sans doute une question d'habitude et d'usage.

    Je ne comprend pas trop ta remarque sur la norme machin par contre. J'imagine que les statisticiens (matheux) sont familiers avec les normes tout de même non ?
  • Non ils ne sont pas familiers avec les normes, puisqu'ils ne s'en servent jamais. Les propriétés des normes n'ont aucun intérêt sur "le terrain".
  • Bonjour,

    Théorème robuste
    Je suis sûre que les statisticiens se réjouissent d'avoir trouver un porte parole, même ceux qui ont suivi quelques cours de math. Je suis statisticien, sur le terrain, je n'ai jamais entendu parler de l'overlap et je connais une paire de norme. Mais c'est sûre que quand on refuse de comprendre ce qu'on fait les normes ne servent à rien.

    Cordialement,
    bd

    [Inutile de répéter le message précédent. AD]
  • Le problème du terme "statisticien" c'est qu'il est très vague. Il regroupe des gens très différents :
    - des gens qui se contentent de bidouiller des tests connus sans trop comprendre ce qu'ils font ,
    - des gens qui ne s'intéressent qu'aux maths qu'il y a derrière,
    - tout un tas d'autres profils dont des gens qui essayent de comprendre et de faire les maths quand c'est possible mais qui savent aussi être pragmatique.

    Ah et on me souffle aussi qu'il y a tous les gens qui ne font qu'appliquer les tests tout fait de logiciels de stats.
  • bd,
    Qu'est-ce que je refuse de comprendre ?
  • Même avec une représentation graphique, faut quand même avoir l'esprit drôlement tourné pour trouver que l'implication

    $ \int \min(f,g)=1$ $\Longrightarrow f=g$

    est plus simple que

    $ \int |f-g|=0$ $\Longrightarrow f=g$
  • Ben je vous assure que mes collègues visualisent sans peine $\int \min(f,g)$ et les cas extrêmes $\int \min(f,g)=1$ et $\int \min(f,g)=0$. Si vous êtes convaincus que je dis n'importe quoi je ne peux rien y faire.

    [La case LaTeX. AD]
  • Non non, je suis convaincu qu'on peut s'habituer à cette vision des choses, d'ailleurs je m'y suis habitué entre temps !

    Je trouve par contre bizarre que l'autre vision soit absente, c'est quand même plus élémentaire et les normes c'est vu en premier cycle. C'est tout.
  • Et puis il y a aussi que je vois mal comment on peut échapper aux normes en faisant des stats. Il y en a ne serait-ce que dans la définition de la variance, dans les moindres carrés etc.
  • Re,
    Mes collègues n'ont pas tous fait un parcours maths suivi d'un master de stats. Et même ceux qui l'ont fait ont vite enterré leur cours d'algèbre, de topologie...
    Ils connaissent tous les moindres carrés mais aucun ou presque ne fait le lien avec la norme euclidienne et la projection, même ceux qui ont un peu étudié les maths ; mon ex-boss qui pratique les stats depuis plus de 10 ans ne sait pas ce qu'est une norme euclidienne, et encore moins une norme, il n'a jamais étudié les maths modernes. Ils n'en ont nullement besoin pour faire du bon boulot, et ils ont déjà des semaines suffisamment chargées comme ça.
    Pour leur parler d'overlap y'a pas de secret : un dessin. Le fait que l'overlap est mathématiquement défini par $\int \min(f,g)$ est secondaire, c'est une parenthèse. Dans ce milieu (je comprends que vous avez du mal à vous y faire car vous êtes universitaires en maths théoriques), introduire le concept avec la formule $\int |f-g|$ est carrément anti-pédagogique. Personne en général ne va faire des maths dans la boîte, tout ce qu'on peut vouloir c'est estimer l'overlap et donner un intervalle de confiance. Si besoin le stateux de la boîte va lire des formules pour les programmer dans un logiciel, mais les maths qui sont derrière c'est le dernier de ses soucis... c'est pas son job.
  • Oui donc le malentendu est plutôt sur la définition de "statisticien" comme je le disais un peu plus haut. La définition est tellement large qu'elle n'a pas de sens.
  • En effet, entre le stateux du rectorat et le stateux universitaire il y a beaucoup d'autres possibilités.
  • À part ça, quand $f_{\mu, \sigma}$ est la densité de ${\cal N}(\mu,\sigma^2)$ on a $$\int \min(f_{\mu_1, \sigma},f_{\mu_2, \sigma}) = 2\Phi\left(-\frac{1}{2}\frac{|\mu_1-\mu_2|}{\sigma}\right),$$ mais sauriez-vous donner une expression pour $\int \min(f_{\mu_1, \sigma_1},f_{\mu_2, \sigma_2}))$ ?
  • Il parait qu'il y a la réponse dans cet article (publié dans la revue préférée de Gérard Letac), mais je n'ai pas accès.
  • Pas acc\`es non plus. Sans faire le calcul en détail il est clair que la réponse \`a ta question est de la forme $a_0+\sum_{i=1}^4a_i\Phi(b_i)$ o\`u les $a_i$ et $b_i$ sont des fonctions simples de $m_1,\ m_2,\ \sigma_1,\ \sigma_2.$ Cher Steven, je suppose que tu faisais allusion \`a l'affirmation: 'publier l\`a dedans entra\^ine \`a Berkeley démission immédiate'. Mais ce n'est pas interdit de regarder des revues médiocres, dans lesquelles des auteurs font parfois des observations intéressantes sans s'apercevoir qu'ils sont assis sur une mine d'or. Evidemment, il ne faut pas regarder que celles l\`a: on apprend plus aupr\`es des ma\^itres...
  • Bonjour,

    A propos de distance en variation totale j'ai une question.

    On définit pour une même mesure (proba) la distance en variation totale entre deux v.a réelles $X$ et $Y$ par :
    $d_{TV} (X,Y) = 2 \sup_{A \in \mathbb{R}} |P(X \in A) - P(Y \in A) |.$

    J'aimerais savoir (ça m'arrangerait !) si la définition ne change pas en considérant seulement les ensembles de la forme
    $]-\infty, t[, t \in \mathbb{R}$.

    Je précise, que dans mon cas, la proba admet une densité, au cas où ça serait important.
  • Non. Prends $Z$ avec $P(Z=n)=\frac1{n(n+1)}$ pour $n$ entier naturel non nul.

    $X=2Z$ et $Y=2Z+1$ sont fort éloignées en variation totale, beaucoup moins sur les ensembles $]-\infty,t[$.
  • J'achète.
    Maintenant, si $P$ ne charge pas les points, par exemple est une mesure à densité sur R, le résultat est-il vrai ?
  • Prend chacun des atomes de la loi donnée par Aléa et étale le un petit peu pour obtenir une loi à densité. Ca devrait fournir également un contre-exemple.
  • La distance de SchumiSutil n'est-elle pas (équivalente à) une distance connue ?
    À part ça je ne serais pas étonné que même sur l'espace des distributions continues (sur $\mathbb{R}$ par exemple), la distance de SchumiSutil induit une topologie séparable, ce qui, sauf erreur, n'est pas le cas pour $d_{TV}$.
  • Gérard Letac a écrit:
    Pas acc\`es non plus. Sans faire le calcul en détail il est clair que la réponse \`a ta question est de la forme $a_0+\sum_{i=1}^4a_i\Phi(b_i)$ o\`u les $a_i$ et $b_i$ sont des fonctions simples de $m_1,\ m_2,\ \sigma_1,\ \sigma_2.$ Cher Steven, je suppose que tu faisais allusion \`a l'affirmation: 'publier l\`a dedans entra\^ine \`a Berkeley démission immédiate'. Mais ce n'est pas interdit de regarder des revues médiocres, dans lesquelles des auteurs font parfois des observations intéressantes sans s'apercevoir qu'ils sont assis sur une mine d'or. Evidemment, il ne faut pas regarder que celles l\`a: on apprend plus aupr\`es des ma\^itres...
    Oui c'est bien à ça que je faisais allusion. Tout à fait d'accord, y'a parfois du bon dans les revues médiocres. Parfois par exemple des choses sont pas assez compliquées pour qu'on les publie dans des bonnes revues (d'ailleurs le problème c'est un peu que bonne revue = revue pour trucs balaises).

    Pour l'overlap, ta réponse semble être en accord avec ce qui est dit ici. Mais hélas j'ai pas assez de courage et de temps libre pour trouver le résultat (pas grave ce n'est pas urgent).
  • A quelques détails pr\`es la distance de SchumiSutil est celle de Paul Lévy et la convergence qu'elle induit est celle de la convergence faible=convergence en loi. M\^eme si les lois ont des densités continues, convergence faible n'entraine pas convergence forte. Exemple
    $f_n(x)=\frac{2}{\pi}cos^2(nx)1_{(0,\pi}(x)$ definit une suite de densités de probabilité qui converge faiblement (ou au sens de la distance de SchumiSutil donc) vers la probabilité uniforme sur $(0,\pi)$ $\frac{2}{\pi}cos^2(nx)1_{(0,\pi}(x)$ de densité $f_(x)=\frac{1}{\pi}1_{(0,\pi}(x).$ Et pourtant $\int_0^{\pi}|f_n-f|$ ne dépend pas de $n.$
  • Re,

    Savez-vous que vaut $\sup_{t \in \mathbb{R}} |P(X \leq t) - P(Y \leq t) |$ lorsque $X$ et $Y$ sont des gaussiennes ?
  • Bonjour Stephen. Sans perte de généralité cela revient à chercher les extrémas de $t\mapsto \Pr(Z<t)-\Pr(Z<at+b)$ (avec $Z\sim N(0,1))$ dont les zéros de la dérivée s'obtiennent par annulation d'un trinôme du second degré, pas spécialement beau.
  • Merci P,
    Tu dis qu'à peu de choses près, c'est la distance de Lévy. Parles-tu bien de cette distance de Lévy ?
  • La distance $\sup_{t\in \Bbb R} |P(X\leq t) - P(Y \leq t)|$ est plus souvent connue sous le nom de distance de Kolmogorov, au moins dans le monde anglo-saxon (voir par exemple http://www.stat.berkeley.edu/{\~}sourav/Lecture2.pdf ). Elle engendre la topologie de la convergence étroite des mesures de probabilité sur $\Bbb R$, tout comme la distance de Lévy (spécialisation de la distance de Prokhorov au cas $\Bbb R$).

    Question subsidiaire : ces distances sont-elles équivalentes ?

    [Correction du lien. AD]
  • Rrooohh Kolmogorov, évidemment !
    Merci !
  • Je trouve ça en trichant avec Mathematica. Y aurait-il moyen de savoir c'est laquelle des deux racines qui donne le sup, sans avoir à faire l'évaluation numérique pour chacune de ces deux racines ?
    29394
  • Voci un graphique qui montre que la bonne racine semble être déterminée par le signe de b :
    a <- seq(0.2,10,by=0.2)
    b <- seq(-7,7,by=1)
    which.root <- sapply(a, function(a){
      sapply(b, function(b) which.max(abs(Psi(Psi.extr(a,b),a,b))))
    })
    colnames(which.root) <- paste0("a=",a)
    rownames(which.root) <- paste0("b=",b)
    plot(0,0, xlim=range(a), ylim=range(b), type="n", xlab="a", ylab="b")
    for(i in 1:length(b)){
      points(a, rep(b[i ],length(a)), pch=19, col=which.root[i,]+1)
    }
    
    29401
  • Pour montrer que la bonne racine est déterminée par le signe de $b$, ça me semble faisable avec un argument de continuité, comme ébauché dans mon texte ci-dessous, sauf qu'à la fin je vais beaucoup trop vite. Je suis un peu rouillé avec ce genre d'exercice d'analyse, comment prouver proprement que $z_1(a,b)=z_(a,b)$ lorsqu'on sait que $z_1(1,b)=z(1,b)$ et que $a \mapsto z(a,b)$ est continue ?


    29402
  • Bon, je crois que personne n'a suivi :D, et mon idée d'argument de continuité est à revoir (je voulais plutôt dire que si $a \mapsto z_{i(a)}(a,b)$ est continue alors nécessairement $i(a)\equiv 1$ ou $i(a) \equiv 2$). Je reviendrai là-dessus et je poserai plus proprement ma question, éventuellement je posterai dans la rubrique Analyse.
  • Par calcul le problème revient à montrer que le signe de $$\text{Erf}\left[\frac{-a b-\sqrt{b^2-2 \left(-1+a^2\right) \text{Log}\left[\frac{1}{a}\right]}}{\sqrt{2} \left(-1+a^2\right)}\right]+\text{Erf}\left[\frac{-a b+\sqrt{b^2-2 \left(-1+a^2\right) \text{Log}\left[\frac{1}{a}\right]}}{\sqrt{2} \left(-1+a^2\right)}\right] $$ $$ -\text{Erf}\left[\frac{-b-a \sqrt{b^2-2 \left(-1+a^2\right) \text{Log}\left[\frac{1}{a}\right]}}{\sqrt{2} \left(-1+a^2\right)}\right]-\text{Erf}\left[\frac{-b+a \sqrt{b^2-2 \left(-1+a^2\right) \text{Log}\left[\frac{1}{a}\right]}}{\sqrt{2} \left(-1+a^2\right)}\right]$$ est constant quand $a,b>0$. Et là je n'ai pas d'idée.
  • En fait c'est assez simple quand on fait un dessin :D
    En faisant un dessin pour $a<1$ et $b>0$ et en regardant l'expression des deux racines $z_1$ et $z_2$ on voit assez facilement que : \begin{itemize}
    \item $z_1> az_1+b$ et $z_2 < az_2+b$, et l'intervalle $I_2:=[z_2, az_2+b]$ est plus long que l'intervalle $I_1:=[az_1+b,z_1]$
    \item $I_2$ contient donc un intervalle $J$ de même taille que $I_1$, et on peut prendre $J$ qui a une mesure ${\cal N}(0,1)$ plus grande que celle de $I_1$ (séparer le cas $az_2+b>0$ et le cas $az_2+b<0$) \end{itemize} Cela permet de dire que c'est $z_2$ qui atteint la distance de Kolmogorov. C'est un peu pénible à expliquer sans dessin mais sauf erreur c'est rigoureusement correct.
    Ensuite on traite le cas $a<1$ et $b<0$ de façon symétrique. On a donc le cas $a<1$, et le cas $a>1$ se déduit par symétrie de la distance de Kolmogorov.
  • J'ai rédigé et je confirme que cela marche.

    Une remarque, dans le cas de 2 gaussiennes : d'après le 1er post de la page 2 de ce fil et d'après le post où j'ai introduit la fonction $\Psi_{a,b}$, on a VT (Variation Totale) = Kolmogorov dans le cas $\sigma_1=\sigma_2$ (c'est-à-dire $a=1$). Et d'ailleurs je n'ai pas encore cherché l'expression de VT dans le cas $\sigma_1 \neq \sigma_2$.
Connectez-vous ou Inscrivez-vous pour répondre.