méthodologie : point au dessus de la droite de régression

Bonjour,

Je dispose de deux types de données. Les premières données portent sur des canards de Savoie, pour lesquels on trouve une relation $\overline{y} = a \overline{x} + b$, avec $a$ et $b$ deux constantes, et $\overline{u}$ la moyenne empirique de $u$. Pour cela, on prend une dizaine d'échantillons de taille 1000, puis pour chacun on a $\overline{y_i}$ et $\overline{x_i}$, puis on régresse (le coefficient $R^2$ est bluffant égal à $0.95$.

On a une autre autre population, les canards du Bangladesh. On aimerait montrer que ceux-ci ne vérifient pas la même équation. Est-il correct de prendre 1 000 données à nouveau, de faire la moyenne pour avoir un $\overline{y_i^'}$ et un $\overline{x_i^'}$, et de voir que ces deux quantités ne vérifient pas la relation attendue avec $a$ et $b$ des canards de Savoie ?

Eventuellement, on peut répéter l'opération plusieurs fois, genre prendre 50 paquets de 1 000 échantillons pour voir qu'à chaque fois on est "hors zone", ceci étant basé sur les variances associées à $a$ et $b$.

Par exemple, on trouve $\overline{y} = 2 \overline{x} + 3$, avec une variance de 0,5 pour $a=2$ et de 0,3 pour $b=3$ pour la Savoie.

Je prends ensuite un échantillon de 1 000 canards du Bangladesh, et je trouve $\overline{x}=3$ et $\overline{y_i}=23$. Si la relation était ok, on devrait avoir $\overline{y_i}$ entre $(a-1.96\sigma_a) \overline{x_i} + (b-1.96 \sigma_b) = 5,47$ et $(a+1.96\sigma_a) \overline{x_i} + (b+1.96 \sigma_b) = 12,528$. Donc les canards du Bangladesh ne vérifient pas la relation demandée, car 23 est trop grand.

Voilà l'idée de ma méthode, est-ce correct ou trop approximatif (dans mon étude, il est bien évident que les canards du B sont différents de ceux de S, encore faut-il le prouver proprement !).

Merci !

Réponses

  • Bonjour Zantac.

    J'ai un peu de mal à te suivre : Tu sembles réduire la régression à un rapport de moyennes, alors qu'elle décrit une adéquation à un modèle linéaire.

    Si tu as, avec un aussi fort coefficient de régression, les valeurs a = 2 et b = 3, tu sais que pour la plupart des canards de Savoie, y = 2x + 3. Je ne sais pas ce que tu appelles la variance pour a et b. Si c'est donné par un logiciel, il s'agit d'une estimation de la variance de l'estimateur dont tu as trouvé la valeurs 2 pour a (ou 3 pour b) dans le cadre de l'hypothèse que les vraies valeurs sont données par un modèle y = ax + b + e où e est une erreur. e suit une loi Normale de moyenne nulle, et imposer que sa variance soit minimale donne les valeurs (estimateurs) de a et b et une estimation de la variance de l'estimateur.

    Revenons à ta méthode. On peut probablement la justifier, mais tu te compliques la vie. Pour un canard qui suit le modèle "Savoie", y vaut environ 2 x + 3. avec la moyenne que tu annonces pour les canards du bengladesh, tu dois avoir 90% des canards loin de la droite (pour lesquels y est très supérieur à 2 x + 3). Donc il n'est pas nécessaire de mathématiser la situation évidente.
    Si tu tiens absolument à prouver l'évidence, ta méthode est assez saine. Je l'appliquerais plutôt aux individus qu'à la moyenne (c'est eux qui sont sensés suivre le modèle) en recherchant le pourcentage de ceux qui sont en dehors de la zone de confiance du modèle. Une autre méthode est de déterminer le modèle de régression sur tes 1000 canards du bengladesh (c'est à peine plus long que les moyennes si tu as déjà numérisé tes données) et de le comparer à celui des canards de Savoie (tu as des intervalles de confiance sur a et b).

    Cordialement

    NB : Je trouve un peu douteux de comparer des modèles linéaires sur des populations aussi différentes (moyennes y 3 et 23). Même si le modèle est le même, il sera probable que c'est plus dû au hasard qu'à un élément commun. A moins que tes données soient fictives ?
  • "Je ne sais pas ce que tu appelles la variance pour a et b. Si c'est donné par un logiciel, il s'agit d'une estimation de la variance de l'estimateur dont tu as trouvé la valeurs 2 pour a (ou 3 pour b) dans le cadre de l'hypothèse que les vraies valeurs sont données par un modèle y = ax + b + e où e est une erreur. e suit une loi Normale de moyenne nulle,"

    C'est exactement ça que j'appelle $\sigma_a$ et $\sigma_b$, les écarts-types des estimateurs.

    "Revenons à ta méthode. On peut probablement la justifier, mais tu te compliques la vie. Pour un canard qui suit le modèle "Savoie", y vaut environ 2 x + 3. avec la moyenne que tu annonces pour les canards du bengladesh, tu dois avoir 90% des canards loin de la droite (pour lesquels y est très supérieur à 2 x + 3). Donc il n'est pas nécessaire de mathématiser la situation évidente. "

    J'ai pris des valeurs volontairement grossières, mais dans la réalité les canards du Bangladesh ne s'éloignent pas autant de la droite, c'était pour le faire comprendre. Sinon mes données sont fictives, en effet :)

    Pour plus de clarté, je continue dans un autre message.
  • Je t'explique en détail l'objet de la demande.

    En fait on a une variable $A_i$, dont on sait que la moyenne empirique tend vers une valeur de référence $A$.

    $A_i$ est elle-même constituée de différents termes (c'est une somme) donc l'un d'entre eux est $B_i$. On fait donc 1000 simulations, dont la moyenne est $\overline{A}$, on obtient alors l'erreur qui est $\varepsilon = \frac{\overline{A}-A_0}{A_0}$.

    En obtient alors la valeur de $B$ sur 1000 simulations qui est $B=\overline{B} A_0/A$ (au prorata en quelque sorte).

    Puis on regresse $B$ sur l'erreur $\varepsilon$ dans le cas des canards de Savoir par exemple.

    On a une relation de type $B = a \varepsilon + B_0$. $B_0$ est la valeur de référence, la valeur attendue de $B$, puisqu'elle est atteinte quand $\varepsilon = 0$.

    Dans le cas des canards du Bangladesh, on se rend compte que la relation n'est plus vérifiée, donc les populations sont différentes. Mais tu as sans doute raison, on aurait plutôt intérêt à faire deux modèles, avec à chaque fois des moyennes (ça c'est indispensable ici) et comparer $B_{0,\text{Savoie}}$ avec $B_{0`,\text{Bangladesh}}$.

    Voilà la méthodologie n'est pas claire, mais le problème n'est pas très usuel (cet espèce de prorata pour ramener $B$ à sa bonne valeur).
  • Effectivement, la méthodologie n'est pas claire !

    Si j'ai bien compris, tu considères une population dont tu tires un échantillon de 1000. Tu mesures sur cet échantillon la variable A, de moyenne connue, estimée par $\overline{A}$. Tu calcules une erreur, et une estimation de la valeur d'une variable liée B, proportionnelle à A.Déjà, je suis perdu car il y a un $A_0$ qui ne me paraît pas être un des $A_i$, mais qui ne m'a pas été présenté.
    Ensuite, tu parles de régression, ce qui veut dire que tu as une série de couples de valeurs. Cela veut-il dire que tu fais plusieurs fois l'estimation de A et B ?
    De plus, le fait que B soit calculé à partir de A et l'erreur aussi ne provoque-t-il pas une liaison linéaire entre B et $\varepsilon$ ? le R² à 0.95 étant provoqué par les erreurs d'arrondi ?
    Si tu n'as pas le temps, ne me réponds pas, mais je suis intéressé par toute méthode statistique appliquée réellement (et sérieusement).

    Cordialement
  • Pardon, $A_0$ est la valeur de référence, ce n'est pas $A$.

    Oui, je fais plusieurs fois l'estimation de $A$ et $B$, et là je régresse $B$ (après "correction" sur $\varepsilon$).

    Justement, la question de la liaison entre $\varepsilon$ et $B$ a peut-être été sous-estimée par moi-même...
  • $A_0$ est la valeur de référence.
  • Et $B = \overline{B} A_0/\overline{A}$. Dommage qu'on puisse pas modifier les messages agréablement, j'ai toujours des messages d'erreurs horribles...
  • Bonsoir.

    J'ai peut-être mal compris :
    Tu fais plusieurs estimations de A et B sur des échantillons de 1000 valeurs, puis tu introduis une erreur (car tu connais la vraie valeur de A qui est $A_0$) qui vaut $\dfrac{\overline{A}}{A_0}-1$ et une rectification de B par $B = \overline{B} A_0/\overline{A}$. Est-ce que je suis bien ?
    mais alors, cette rectification de B introduit la valeur de $\varepsilon$ dans le calcul de B. Pas étonnant qu'il y ait liaison (Pourquoi linéaire ? peut-être parce qu'il y a de faibles variations, ce qui linéarise la liaison) entre $\varepsilon$ et B.

    Ais-je vu juste ?

    Cordialement
  • Re,

    tout ce que tu as écrit est exact. Et la relation entre $\varepsilon$ est $B$ est dûe au fait que tu mentionnes.

    Par exemple, pour les canards de Savoie, je sais que $A_0=600$.
    (1) 1ère simulation, je trouve $\overline{A}=590$ et $\overline{B}=500$, ce qui nous donne $\varepsilon = -1.67 \%$ et $B = 508.47$.
    ...
    (N) N-ème simulation, je trouve $\overline{A}=602$ et $\overline{B}=510.22$, ce qui nous donne $\varepsilon = 0.33 \%$ et $B = 508.52$.

    La relation linéaire entre $B$ est $\varepsilon$ étant trouvée, je m'intéresse au cas des canards du Bangladesh par la suite. Et par exemple -$A_0=600$ aussi-, et par exemple je trouve $\overline{A}=590$ et $\overline{B}=400$, ce qui nous donne là aussi $\varepsilon = -1.67 \%$ mais $B = 406.8$.

    On voit bien que les canards du Bangladesh sont différents, et je voulais matérialiser ça part une relation linéaire à l'erreur (mesurée en Savoie) non vérifiée au Bangladesh.

    Qu'en penses-tu ? C'est un peu tiré par les cheveux, j'imagine !
    ...
  • Bonsoir.

    Je ne sais pas si c'est tiré par les cheveux, je ne saisis pas l'intérêt : pour montrer la différence entre les deux variétés de canards, la comparaison directe des valeurs de b est tout à fait efficace. Ce que je ne comprends pas, donc, c'est pourquoi tu veux utiliser cette relation linéaire tirée des données plutôt que les données elles-même. mais tu as sans doute une bonne raison.

    Cordialement
  • Juste une question, qu'appelles-tu $b$ ?

    Tu veux dire $B$ ? Dans ce cas là, je fais une régression de $A$ sur $B$ tu veux dire ? Oui effectivement ça serait plus simple :)
  • Pardon, j'ai compris ce qu'était le $b$, c'est le coefficient dans ma régression.

    Oui tu as raison, c'est sans doute beaucoup plus simple !
  • Bonjour.

    Pourquoi une régression de A sur B ? Pourquoi pas directement les valeurs de B, puisque celles de A semblent à peu près identiques ? Ou le couple (A,B) sinon ?

    Cordialement.

    NB : Je ne comprends toujours pas pourquoi ce calcul de régression (en général c'est pour mettre en évidence une liaison qu'on soupçonne entre deux variables).
  • Le problème est qu'en fait les canards de Savoie et du Bangladesh sont quand même assez proches, il faut bien les différencier proprement.

    Par exemple si j'ai pour la Savoie B 500 et 502 sur 100 simulations, puis pour le Bangladesh B entre 488 et 490, ce n'est pas la même chose, mais je cherche à le formaliser, d'où mes "idées".
  • Oui Zantac.

    Mais si tu as testé pour tes Savoie que la moyenne de B est 501, avec un écart - type estimé à 2, tu as un test classique de l'hypothèse "les populations sont les mêmes". Pour un risque r, sil les populations sont identiques, l'intervalle de confiance sur la moyenne de B au seuil 1-r est connu. Par exemple au risque 5%, si tu testes 100 canards, leur moyenne sur B est comprise entre 500,6 et 501,4. Si tu trouves une moyenne entre 488 et 490, on est en dehors de l'intervalle de confiance, et le test échoue : Il est raisonnable de réfuter l'hypothèse.
    Si tu n'as jamais pratiqué cela, va voir la technique des tests d'hypothèse.

    Cordialement
  • Si j'ai déjà pratiqué cela bien sûr, c'est juste que quand je suis livré à moi-même j'ai tendance à faire des trucs un peu plus "freestyle" (qui marche dans le cas présent, j'en suis convaincu) et moins clairs que dans un cours. Mais je vais sans doute en changer sur cet exemple.
  • Ah oui, en fait je n'ai pas non plus deux familles de canards, mais plutôt 8. Ce qui explique que je fasse un modèle général, pour ensuite voir, par rapport à ce modèle, ceux qui sont en dessous, et ceux qui sont au dessus.

    Voilà voilà, en tout cas merci pour ton aide, et pour tes commentaires !
  • J'ai tout de même des choses à rajouter mon compléter un peu ce fouilli.

    On a donc 1000 simulations, et pour chacune d'elles on a $B_i$ et $A_i$ les valeurs simulées.

    Nous savons qu'en moyenne $\overline{A} = \frac{1}{N} \sum_{i=1}^{N}{A_i}$ tend vers $A_0$. L'erreur $\varepsilon$ ne peut donc être définie que entre $A_0$ et $\overline{A}$.

    Et seulement ensuite, on calcule $B = \overline{B} A_O/\overline{A}$. Dans le cadre de ce modèle, on ne peut pas corriger "ligne à ligne", on ne peut pas faire quelque chose du genre $B_i A_O/A_i$, et faire des régressions avec cette quantité.

    On se propose alors de régresser $B$ sur $\varepsilon$. Ensuite, en fonction du type de canard, on regarde si le point est significativement au dessus de la droite. Si c'est le cas, on a telle ou telle propriété.

    Voilà pourquoi les choses ne sont pas si simples. Gérard, tu es encore là ?
  • Par rapport à ta méthode, le problème est que pour chaque $B$ que je veux trouver pour la Savoie, je dois faire 1000 simulations. Tu dis qu'on a qu'à regarder la distribution de $B$ pour les canards de savoie, et faire un test d'hypothèses, mais c'est pas possible car dans le modèle considéré 1000
    simulations = 12 heures...

    Sinon en effet ce serait le mieux !
  • Finalement en fait ce que je fais ici c'est de l'analyse de données. Je trace la droite approximée donnant $B$ en fonction de $d$ une certaine caractéristique du canard (son poids, par exemple ceux de savoie pèsent 2 kg et ceux du Bangladesh 5 kg, ceux d'Ukraine 4 kg, etc), puis je considère cette droite comme une séparatrice : les points au dessus sont différents des points en dessous. Voilà en gros la méthode (il y a 10 variétés de canards de poids croissants).
  • Bonsoir.

    Méthode dangereuse : La droite est obtenue avec des points situés au dessus et au dessus. Et si tu l'obtiens avec une faible variation de d, ce qui se passe pour des valeurs différentes de d n'a aucune raison de suivre le modèle obtenu. De plus, une autre population pourrait avoir des valeurs différentes et la même droite.

    Et je ne comprends pas pourquoi tu cherches à distinguer des populations dont tu sais qu'elle sont distinctes : "par exemple ceux de savoie pèsent 2 kg et ceux du Bangladesh 5 kg, ceux d'Ukraine 4 kg, etc". Mais je ne suis pas dans ta problématique.

    Cordialement
  • En fait pour tout t'avouer, il ne s'agit pas de canards :) Je pensais utiliser ça pour que ce soit plus amusant mais finalement ça complique.

    $d$ représente la durée de vie (=maturité) d'obligations, et $d$ est discret compris entre 1 an et 10 ans, avec un pas de 1 an.

    Et ensuite, je cherche à rapprocher différents types d'obligations. Je trouve que celle de durée de vie égales à 1,2,3,7,8 vérifient des propriétés que les autres ne vérifient pas, i.e. leur $B$ est plus faible. Et c'est un résultat auquel on s'attendait, donc ça me semble pas si mal, mais peut-être que je me trompe.
Connectez-vous ou Inscrivez-vous pour répondre.