méthodologie : point au dessus de la droite de régression
dans Statistiques
Bonjour,
Je dispose de deux types de données. Les premières données portent sur des canards de Savoie, pour lesquels on trouve une relation $\overline{y} = a \overline{x} + b$, avec $a$ et $b$ deux constantes, et $\overline{u}$ la moyenne empirique de $u$. Pour cela, on prend une dizaine d'échantillons de taille 1000, puis pour chacun on a $\overline{y_i}$ et $\overline{x_i}$, puis on régresse (le coefficient $R^2$ est bluffant égal à $0.95$.
On a une autre autre population, les canards du Bangladesh. On aimerait montrer que ceux-ci ne vérifient pas la même équation. Est-il correct de prendre 1 000 données à nouveau, de faire la moyenne pour avoir un $\overline{y_i^'}$ et un $\overline{x_i^'}$, et de voir que ces deux quantités ne vérifient pas la relation attendue avec $a$ et $b$ des canards de Savoie ?
Eventuellement, on peut répéter l'opération plusieurs fois, genre prendre 50 paquets de 1 000 échantillons pour voir qu'à chaque fois on est "hors zone", ceci étant basé sur les variances associées à $a$ et $b$.
Par exemple, on trouve $\overline{y} = 2 \overline{x} + 3$, avec une variance de 0,5 pour $a=2$ et de 0,3 pour $b=3$ pour la Savoie.
Je prends ensuite un échantillon de 1 000 canards du Bangladesh, et je trouve $\overline{x}=3$ et $\overline{y_i}=23$. Si la relation était ok, on devrait avoir $\overline{y_i}$ entre $(a-1.96\sigma_a) \overline{x_i} + (b-1.96 \sigma_b) = 5,47$ et $(a+1.96\sigma_a) \overline{x_i} + (b+1.96 \sigma_b) = 12,528$. Donc les canards du Bangladesh ne vérifient pas la relation demandée, car 23 est trop grand.
Voilà l'idée de ma méthode, est-ce correct ou trop approximatif (dans mon étude, il est bien évident que les canards du B sont différents de ceux de S, encore faut-il le prouver proprement !).
Merci !
Je dispose de deux types de données. Les premières données portent sur des canards de Savoie, pour lesquels on trouve une relation $\overline{y} = a \overline{x} + b$, avec $a$ et $b$ deux constantes, et $\overline{u}$ la moyenne empirique de $u$. Pour cela, on prend une dizaine d'échantillons de taille 1000, puis pour chacun on a $\overline{y_i}$ et $\overline{x_i}$, puis on régresse (le coefficient $R^2$ est bluffant égal à $0.95$.
On a une autre autre population, les canards du Bangladesh. On aimerait montrer que ceux-ci ne vérifient pas la même équation. Est-il correct de prendre 1 000 données à nouveau, de faire la moyenne pour avoir un $\overline{y_i^'}$ et un $\overline{x_i^'}$, et de voir que ces deux quantités ne vérifient pas la relation attendue avec $a$ et $b$ des canards de Savoie ?
Eventuellement, on peut répéter l'opération plusieurs fois, genre prendre 50 paquets de 1 000 échantillons pour voir qu'à chaque fois on est "hors zone", ceci étant basé sur les variances associées à $a$ et $b$.
Par exemple, on trouve $\overline{y} = 2 \overline{x} + 3$, avec une variance de 0,5 pour $a=2$ et de 0,3 pour $b=3$ pour la Savoie.
Je prends ensuite un échantillon de 1 000 canards du Bangladesh, et je trouve $\overline{x}=3$ et $\overline{y_i}=23$. Si la relation était ok, on devrait avoir $\overline{y_i}$ entre $(a-1.96\sigma_a) \overline{x_i} + (b-1.96 \sigma_b) = 5,47$ et $(a+1.96\sigma_a) \overline{x_i} + (b+1.96 \sigma_b) = 12,528$. Donc les canards du Bangladesh ne vérifient pas la relation demandée, car 23 est trop grand.
Voilà l'idée de ma méthode, est-ce correct ou trop approximatif (dans mon étude, il est bien évident que les canards du B sont différents de ceux de S, encore faut-il le prouver proprement !).
Merci !
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
J'ai un peu de mal à te suivre : Tu sembles réduire la régression à un rapport de moyennes, alors qu'elle décrit une adéquation à un modèle linéaire.
Si tu as, avec un aussi fort coefficient de régression, les valeurs a = 2 et b = 3, tu sais que pour la plupart des canards de Savoie, y = 2x + 3. Je ne sais pas ce que tu appelles la variance pour a et b. Si c'est donné par un logiciel, il s'agit d'une estimation de la variance de l'estimateur dont tu as trouvé la valeurs 2 pour a (ou 3 pour b) dans le cadre de l'hypothèse que les vraies valeurs sont données par un modèle y = ax + b + e où e est une erreur. e suit une loi Normale de moyenne nulle, et imposer que sa variance soit minimale donne les valeurs (estimateurs) de a et b et une estimation de la variance de l'estimateur.
Revenons à ta méthode. On peut probablement la justifier, mais tu te compliques la vie. Pour un canard qui suit le modèle "Savoie", y vaut environ 2 x + 3. avec la moyenne que tu annonces pour les canards du bengladesh, tu dois avoir 90% des canards loin de la droite (pour lesquels y est très supérieur à 2 x + 3). Donc il n'est pas nécessaire de mathématiser la situation évidente.
Si tu tiens absolument à prouver l'évidence, ta méthode est assez saine. Je l'appliquerais plutôt aux individus qu'à la moyenne (c'est eux qui sont sensés suivre le modèle) en recherchant le pourcentage de ceux qui sont en dehors de la zone de confiance du modèle. Une autre méthode est de déterminer le modèle de régression sur tes 1000 canards du bengladesh (c'est à peine plus long que les moyennes si tu as déjà numérisé tes données) et de le comparer à celui des canards de Savoie (tu as des intervalles de confiance sur a et b).
Cordialement
NB : Je trouve un peu douteux de comparer des modèles linéaires sur des populations aussi différentes (moyennes y 3 et 23). Même si le modèle est le même, il sera probable que c'est plus dû au hasard qu'à un élément commun. A moins que tes données soient fictives ?
C'est exactement ça que j'appelle $\sigma_a$ et $\sigma_b$, les écarts-types des estimateurs.
"Revenons à ta méthode. On peut probablement la justifier, mais tu te compliques la vie. Pour un canard qui suit le modèle "Savoie", y vaut environ 2 x + 3. avec la moyenne que tu annonces pour les canards du bengladesh, tu dois avoir 90% des canards loin de la droite (pour lesquels y est très supérieur à 2 x + 3). Donc il n'est pas nécessaire de mathématiser la situation évidente. "
J'ai pris des valeurs volontairement grossières, mais dans la réalité les canards du Bangladesh ne s'éloignent pas autant de la droite, c'était pour le faire comprendre. Sinon mes données sont fictives, en effet
Pour plus de clarté, je continue dans un autre message.
En fait on a une variable $A_i$, dont on sait que la moyenne empirique tend vers une valeur de référence $A$.
$A_i$ est elle-même constituée de différents termes (c'est une somme) donc l'un d'entre eux est $B_i$. On fait donc 1000 simulations, dont la moyenne est $\overline{A}$, on obtient alors l'erreur qui est $\varepsilon = \frac{\overline{A}-A_0}{A_0}$.
En obtient alors la valeur de $B$ sur 1000 simulations qui est $B=\overline{B} A_0/A$ (au prorata en quelque sorte).
Puis on regresse $B$ sur l'erreur $\varepsilon$ dans le cas des canards de Savoir par exemple.
On a une relation de type $B = a \varepsilon + B_0$. $B_0$ est la valeur de référence, la valeur attendue de $B$, puisqu'elle est atteinte quand $\varepsilon = 0$.
Dans le cas des canards du Bangladesh, on se rend compte que la relation n'est plus vérifiée, donc les populations sont différentes. Mais tu as sans doute raison, on aurait plutôt intérêt à faire deux modèles, avec à chaque fois des moyennes (ça c'est indispensable ici) et comparer $B_{0,\text{Savoie}}$ avec $B_{0`,\text{Bangladesh}}$.
Voilà la méthodologie n'est pas claire, mais le problème n'est pas très usuel (cet espèce de prorata pour ramener $B$ à sa bonne valeur).
Si j'ai bien compris, tu considères une population dont tu tires un échantillon de 1000. Tu mesures sur cet échantillon la variable A, de moyenne connue, estimée par $\overline{A}$. Tu calcules une erreur, et une estimation de la valeur d'une variable liée B, proportionnelle à A.Déjà, je suis perdu car il y a un $A_0$ qui ne me paraît pas être un des $A_i$, mais qui ne m'a pas été présenté.
Ensuite, tu parles de régression, ce qui veut dire que tu as une série de couples de valeurs. Cela veut-il dire que tu fais plusieurs fois l'estimation de A et B ?
De plus, le fait que B soit calculé à partir de A et l'erreur aussi ne provoque-t-il pas une liaison linéaire entre B et $\varepsilon$ ? le R² à 0.95 étant provoqué par les erreurs d'arrondi ?
Si tu n'as pas le temps, ne me réponds pas, mais je suis intéressé par toute méthode statistique appliquée réellement (et sérieusement).
Cordialement
Oui, je fais plusieurs fois l'estimation de $A$ et $B$, et là je régresse $B$ (après "correction" sur $\varepsilon$).
Justement, la question de la liaison entre $\varepsilon$ et $B$ a peut-être été sous-estimée par moi-même...
J'ai peut-être mal compris :
Tu fais plusieurs estimations de A et B sur des échantillons de 1000 valeurs, puis tu introduis une erreur (car tu connais la vraie valeur de A qui est $A_0$) qui vaut $\dfrac{\overline{A}}{A_0}-1$ et une rectification de B par $B = \overline{B} A_0/\overline{A}$. Est-ce que je suis bien ?
mais alors, cette rectification de B introduit la valeur de $\varepsilon$ dans le calcul de B. Pas étonnant qu'il y ait liaison (Pourquoi linéaire ? peut-être parce qu'il y a de faibles variations, ce qui linéarise la liaison) entre $\varepsilon$ et B.
Ais-je vu juste ?
Cordialement
tout ce que tu as écrit est exact. Et la relation entre $\varepsilon$ est $B$ est dûe au fait que tu mentionnes.
Par exemple, pour les canards de Savoie, je sais que $A_0=600$.
(1) 1ère simulation, je trouve $\overline{A}=590$ et $\overline{B}=500$, ce qui nous donne $\varepsilon = -1.67 \%$ et $B = 508.47$.
...
(N) N-ème simulation, je trouve $\overline{A}=602$ et $\overline{B}=510.22$, ce qui nous donne $\varepsilon = 0.33 \%$ et $B = 508.52$.
La relation linéaire entre $B$ est $\varepsilon$ étant trouvée, je m'intéresse au cas des canards du Bangladesh par la suite. Et par exemple -$A_0=600$ aussi-, et par exemple je trouve $\overline{A}=590$ et $\overline{B}=400$, ce qui nous donne là aussi $\varepsilon = -1.67 \%$ mais $B = 406.8$.
On voit bien que les canards du Bangladesh sont différents, et je voulais matérialiser ça part une relation linéaire à l'erreur (mesurée en Savoie) non vérifiée au Bangladesh.
Qu'en penses-tu ? C'est un peu tiré par les cheveux, j'imagine !
...
Je ne sais pas si c'est tiré par les cheveux, je ne saisis pas l'intérêt : pour montrer la différence entre les deux variétés de canards, la comparaison directe des valeurs de b est tout à fait efficace. Ce que je ne comprends pas, donc, c'est pourquoi tu veux utiliser cette relation linéaire tirée des données plutôt que les données elles-même. mais tu as sans doute une bonne raison.
Cordialement
Tu veux dire $B$ ? Dans ce cas là, je fais une régression de $A$ sur $B$ tu veux dire ? Oui effectivement ça serait plus simple
Oui tu as raison, c'est sans doute beaucoup plus simple !
Pourquoi une régression de A sur B ? Pourquoi pas directement les valeurs de B, puisque celles de A semblent à peu près identiques ? Ou le couple (A,B) sinon ?
Cordialement.
NB : Je ne comprends toujours pas pourquoi ce calcul de régression (en général c'est pour mettre en évidence une liaison qu'on soupçonne entre deux variables).
Par exemple si j'ai pour la Savoie B 500 et 502 sur 100 simulations, puis pour le Bangladesh B entre 488 et 490, ce n'est pas la même chose, mais je cherche à le formaliser, d'où mes "idées".
Mais si tu as testé pour tes Savoie que la moyenne de B est 501, avec un écart - type estimé à 2, tu as un test classique de l'hypothèse "les populations sont les mêmes". Pour un risque r, sil les populations sont identiques, l'intervalle de confiance sur la moyenne de B au seuil 1-r est connu. Par exemple au risque 5%, si tu testes 100 canards, leur moyenne sur B est comprise entre 500,6 et 501,4. Si tu trouves une moyenne entre 488 et 490, on est en dehors de l'intervalle de confiance, et le test échoue : Il est raisonnable de réfuter l'hypothèse.
Si tu n'as jamais pratiqué cela, va voir la technique des tests d'hypothèse.
Cordialement
Voilà voilà, en tout cas merci pour ton aide, et pour tes commentaires !
On a donc 1000 simulations, et pour chacune d'elles on a $B_i$ et $A_i$ les valeurs simulées.
Nous savons qu'en moyenne $\overline{A} = \frac{1}{N} \sum_{i=1}^{N}{A_i}$ tend vers $A_0$. L'erreur $\varepsilon$ ne peut donc être définie que entre $A_0$ et $\overline{A}$.
Et seulement ensuite, on calcule $B = \overline{B} A_O/\overline{A}$. Dans le cadre de ce modèle, on ne peut pas corriger "ligne à ligne", on ne peut pas faire quelque chose du genre $B_i A_O/A_i$, et faire des régressions avec cette quantité.
On se propose alors de régresser $B$ sur $\varepsilon$. Ensuite, en fonction du type de canard, on regarde si le point est significativement au dessus de la droite. Si c'est le cas, on a telle ou telle propriété.
Voilà pourquoi les choses ne sont pas si simples. Gérard, tu es encore là ?
simulations = 12 heures...
Sinon en effet ce serait le mieux !
Méthode dangereuse : La droite est obtenue avec des points situés au dessus et au dessus. Et si tu l'obtiens avec une faible variation de d, ce qui se passe pour des valeurs différentes de d n'a aucune raison de suivre le modèle obtenu. De plus, une autre population pourrait avoir des valeurs différentes et la même droite.
Et je ne comprends pas pourquoi tu cherches à distinguer des populations dont tu sais qu'elle sont distinctes : "par exemple ceux de savoie pèsent 2 kg et ceux du Bangladesh 5 kg, ceux d'Ukraine 4 kg, etc". Mais je ne suis pas dans ta problématique.
Cordialement
$d$ représente la durée de vie (=maturité) d'obligations, et $d$ est discret compris entre 1 an et 10 ans, avec un pas de 1 an.
Et ensuite, je cherche à rapprocher différents types d'obligations. Je trouve que celle de durée de vie égales à 1,2,3,7,8 vérifient des propriétés que les autres ne vérifient pas, i.e. leur $B$ est plus faible. Et c'est un résultat auquel on s'attendait, donc ça me semble pas si mal, mais peut-être que je me trompe.