régression logistique et effets marginal — Les-mathematiques.net The most powerful custom community solution in the world

régression logistique et effets marginal

Bonjour
Je suis en master 2 statistique et je voudrais poser des questions aux amis statisticiens.
Je fais une étude sur la trajectoire des étudiants sortis du système éducatifs. ma variable à expliquer est celle de la situation du jeune sur le marché du travail. C'est une variable à trois modalités (non emploi, emploi à temps complet, emploi à temps partiel).
J'ai une série de variables explicatives, dont le diplôme obtenu (licence, master, doctorat), la spécialité du diplôme (scientifique, littéraire, sciences sociales), le sexe.
Tout d'abord j'ai fait une régression logistique binaire en considérant que la variable à expliquer est y=1 si le jeune travaille à temps complet ou à temps partiel, et y=0 si le jeune ne travaille pas. Ma première question est celle ci : je veux calculer l'effet marginal de la variable sexe sur la probabilité d'avoir un emploi. Cependant cet effet dépend du point à la quelle on se trouve. La question qui m'a été posée est de calculer l'effet marginal sans précision. Je veux savoir est ce que je pourrai calculer cet effet par rapport à une référence donnée.
Par exemple dans mon modèle final j'ai y=F(master, doctorat,scientifique, science sociale), toutes les variables que j'ai mis sont des variables dichotomiques et pour chacune d'elles j'ai un beta estimé. Donc je veux savoir si mon effet marginal je le calcul pour des individus pour lesquelles master=1, doctorat=1, scientifique=1, sciences sociale=1.
Ma deuxième question est celle-ci : Si cette fois ci je dois tenir compte du type d'emploi occupé est-ce que j'ai à faire à un modèle logit multinomial ou un logit ordonné ?
Merci beaucoup

Réponses

  • Bonjour
    Je ne suis pas statisticien n'ayant rien inventé en stat. C'est un statisticien qui l'a dit. mais je les pratique depuis pas mal de temps.
    Envoie-moi un morceau de ton tableau avec en titre des colonnes :
    Nom (3 lettres) / diplôme/ spécialité/ sexe/ emploi/ ...
    les réponses sont codées exemple : emploi temps complet =2, à mi-temps=1/ sans=0.
    Je verrai ce que je peux faire..
    3 emplois x 2 sexes x 3 diplômes x 3 spécialités = 54 . Combien as-tu de cas (lignes du tableau)
    Pour utiliser le khi2, par exemple, il faudrait au moins 5 cas pour les. 54 possibilités (=270) sinon on ne peut que compter sans estimer les probas si tu les veux comme :proba pour un (doc, masculin, sciences, emploi plein).
    Par contre si tu ne veux que savoir proba pour (féminin, doc) on peut peut-être avec moins de 270 lignes.
    Cordialement
    Koniev
  • Bonjour
    J'ai entré un tableau inventé dans le logiciel MINITAB avec les titres de colonnes :
    Nom (3 premières initiales) / Sexe : 1 masculin et 2 féminin /Diplômes : 1, 2 et 3 pour le doctorat / Spécialités : 1 sciences, 2 littéraires ,3 scien sociales / Emploi : 0 sans, mi-temps 1, 2 temps plein
    J'ai 25 individus
    Je peux étudier : Sexe et emploi, Diplôme et emploi , Spécialités et emploi, ....
    La régression donne :
    Emploi = a + b x sexe + b x diplôme + c x spécialités
    a,b,c sont <0 ou >0.
    Les stat sont comme la photo numérique. Il faut être prétentieux de vouloir se passer des options prévues par les ingénieurs photographes et bricoler des réglages peso. En stat des logiciels permettent de travailler à coup sûr.
    Cordialement
    koniev
  • Salut koniev je vais te joindre le fichier ce soir. T'a raison d'ailleurs je travaille avec SAS pour ce projet. Sinon j'ai 2055 individus donc j'ai pas de probléme au niveau de la realisation des test et autres calcul de proba.
  • Bonjour
    Avec MINITAB je trie les données :
    Les M(asculin) sont ensemble puis les F.
    Les M sont ensuite triés par diplômes croissants Lic, Maît, Doctorats
    Chaque diplômes est trié par spécialités
    et pour chaque ligne je termine par le genre d'emploi 0, 1 ou 2.
    En réalité MINITAB fait ces tris en une seule manœuvre.
    Evidemment j'ai une ligne par individu !
    Je fais ensuite un tableau de 2x3x3x3 = 54 lignes qui indique par exemple qu'il y a 5 Masc, ayant un doct en Sciences qui a un emploi à plein temps.
    A partir de ce tableau on peut passer aux stat.
    Pour les Masc           sans emp      à mi-temps                 à temps plein
    
    Licence                 10                21                         15
    Maîtrise                12                35                         10
    Doctorat                16                21                         25
    
    Le khi2 permet de voir si les écarts sont dus au hasard.
    Même chose pour les F.

    Il est alors possible de croiser les données diplômes et emplois H et F séparés on ensemble, faire jouer l'imagination, et on aboutit pour chaque croisement à une proba.
    Le hic je ne vois pas comment passer du tableau au nb de lignes = au nb d'individus au tableau à 54 lignes ?
    Cordialement
    Koniev
  • Bonjour
    On peut passer d'un tableau à l'autre par la fonction FILTRER d'EXCEL.
    Cordialement
    Koniev
  • Salut Koniev, ci joint tu trouveras le fichier. les variables sont :
    nmcho = nombre de mois de chômage de l'individu. C'est une variable continue
    dipl=type de diplôme de l'individu. C'est une variable qualitative à trois modalités.(1=licence,2=master,3=doctorat)
    specdipl=la spécialité du diplôme. C'est aussi une variable qualitative à trois modalités(1=Scientifique,2=litteraire,3=science sociale)
    sexe=1=homme,2=femme.
    situ=situation de l'individu. C'est notre variable d'intérêt. C'est aussi une variable qualitative à 3 modalités.(1=non emploi,2=emploi à temps complet,3=emploi à temps partiel)
    Dans un premier temps il faut recoder les variables en variables dichotomiques.
    Pour la variable sexe j'ai crée une variable hom qui vaut 1 si l'individu est un homme et 0 sinon.
    Pour la variable dipl j'ai crée 3 variable. licence qui vaut 1 si c'est licence et 0 sinon. master qui vaut 1 si c'est master et 0 sinon. doctorat qui vaut 1 si c'est doctorat et 0 sinon.
    J'ai fait pareil pour la variable specdipl. J'ai donc 3 variables dichotomiques.
    Il faut recoder les variables qualitatives en variables binaires pour pouvoir les considerer en variables "continus" et pour les variables à plus de deux modalites il faut mettre (Nb-1) variables dichotomiques ou nb est le nombre de modalites de la variable. Par exemple pour la variable specdipl j'ai introduit science et science sociale.
    Dans un premier temps je considere la variable y=1 sil'individu travail à temps complet ou à temps partiel(j'ai reuni donc deux modalités) et y=0 si non emploi. la variable y c'est donc une variable binaire.
    Enfin passons aux choses serieuses. J'ai construit la regression logistique suivante:
    y=master,doctorat,scientifque,science,science sociale,homme. Ma question est la suivante: Calculer l'effet marginal de la variable sexe et de la variable nmcho? à plus koniev
  • Bonjour,
    je suis en master 2 statistiques, je suis entrain de mener une étude sur la modelisation sur la demande de transport, j'ai fais une regression logistique (probit). Ma variable à expliquer est le mode transport utilisé ( bus= 1 et voiture=0) , mes variables explicatives ( sexe, csp, age, cout , temps).
    Je souhaiterais calculer les élasticités temps(variable continue) et cout (variable continue) en fonction des probabilités du choix modal, les élasticités directes et croisés.
    Est ce que quelqu'un peut m'aider à le faire sous SAS ?

    Merci à l'avance
    Bien cordialement.
  • j'ai estimé l'équation de regression logistique à l'aide de systat qui me sort ceci:
    coefficient de l'âge = 1.145
    constante = - 9.638
    age moyen = 9.5 ans
    probabilité au point moyen = 0.775
    effet marginal de l'âge sur la base de la formule est = 0.775*0.225*1.145=0.199 environ 0.2
    cela veut dire que lorsque l'âge augment de 1 année, la probabilité moyenne de réussir augment de 0.2 soit 0.775+0.20=0.975 ok?
    maintenant quand je remplace dans l'équation logistique l'âge par 10.5 ans (c.à.d âge moyen + 1 année) je trouve une probabilité de 0.915 au lieu de 0.975 ???? qu'en pensez vous? pourquoi l'effet marginal calculé ne correspond t-il pas au resultat de vérification? existe-t-il une autre formule plus exacte?
    merci bien
  • Salut,

    Je ne suis pas un grand pro de la régression logistique, mais ce que tu appelles "effet marginal" doit être une dérivée, non ? Au sens ou, si $p(a)$ désigne la probabilité de succès associée à l'âge $a$, et $a_0$ l'âge moyen, tu as $p(a_0+h) \simeq p(a) + mh$ pour une "petite" différence d'âge $h$, en notant $m$ l'effet marginal.

    Mais ce n'est qu'une approximation linéaire, et pour $h=1$an, qui n'est pas petit, on voit qu'elle devient fausse. D'ailleurs il est normal que la probabilité exacte soit plus faible que l'approximation linéaire, car sinon pour un âge suffisamment grand tu trouverais des probabilités plus grandes que $1$.
Connectez-vous ou Inscrivez-vous pour répondre.
Success message!