Data science

Bonjour
Je suis dans la première année du master de statistique et big data, et mon rêve est de devenir un data scientiste, pour ce premier semestre on n'a étudié que des modules mathématiques (probabilité, analyse fonctionnelle, optimisation, économétrie...) du coup je ne sais pas est-ce que ces modules vont me servir après ?
Merci de me donner quelque conseils :D

Réponses

  • Tout peut te servir, pour une raison très simple : la plus grande facilité d'exploitation des données induit des transferts de problématiques rapides, et si tu travailles plus tard dans une boite petite ou moyenne, qu'on te demande de te coller à une question d'optimisation très technique, on va rapidement te demander tes préconisations et combien ça va coûter.

    Donc d'après les modules que tu exposes, cette variété semble avoir été pensée dans la maquette de formation et c'est une bonne chose.
    "J'appelle bourgeois quiconque pense bassement." Gustave Flaubert
  • Bonjour naforito,

    L'optimisation est cruciale en data science : plusieurs algorithmes de machine learning (en particulier l'un des principes de base du deep learning) vont reposer sur de l'optimisation pour choisir les bons paramètres d'un modèle. Pour prendre l'exemple le plus simple possible, rien que la régression linéaire par moindres carrés consiste en une optimisation (minimisation des carrés des erreurs du modèle).

    En principe, des bonnes bases de probabilités sont importantes pour faire correctement de la statistique mais aussi pour des modèles bien utiles comme les chaînes de Markov. Par contre, comme il s'agit d'un niveau M1, il se peut que ce cours soit inutilement théorique ou très utile (il faudrait que tu nous précises ce que contenait ce cours).

    A priori, l'analyse fonctionnelle sert très peu voire pas du tout. Pour l'économétrie, je ne m'y connais pas assez mais ça peut être utile si c'est une variante des statistiques (par exemple, si ton cours d'économétrie aborde les séries temporelles, alors il est important).
  • Merci beaucoup vous m'avez donné beaucoup d'énergie pour bien bosser dans ces modules. Pour les probabilités en premier semestre on a étudié les variables aléatoires discrètes et continues, les fonctions caractéristiques, les convergences des variables aléatoires et les lois des grands nombres mais pour le deuxième semestre on va étudier la modélisation par les chaînes de Markov, files d'attentes ainsi que les notions de martingale et temps d’arrêt.
  • Je suis dans la première année du master de statistique et big data, et mon rêve est de devenir un data scientiste
    Rêve?
    pour ce premier semestre on n'a étudié que des modules mathématiques (probabilité, analyse fonctionnelle, optimisation, économétrie...) du coup je ne sais pas est-ce que ces modules vont me servir après ?
    Les cours théoriques sont toujours en premier, les applications c'est si on a le temps. :-D
    mais pour le deuxième semestre on va étudier la modélisation par les chaînes de Markov, files d'attentes ainsi que les notions de martingale et temps d’arrêt.

    Comme le dit :
    Pour prendre l'exemple le plus simple possible, rien que la régression linéaire par moindres carrés consiste en une optimisation (minimisation des carrés des erreurs du modèle).
    il faut passer aux applications va sur https://www.kaggle.com/ et fait le "Titanic: Machine Learning from Disaster" https://www.kaggle.com/c/titanic il y a d'autres "competitions" tu peux y rencontrer du monde et même y trouver un job (mais pas en France) d'ailleurs jette un œil aux offres d'emploi https://www.kaggle.com/jobs
  • "mais pas en France" ? Pourquoi pas ? Les tarifs bruts débutants sont 400 € / j jusqu'à 1200 € / j seniors confirmés (dans les cabinets styles Ernest et Jeunes etc.) avec des problématiques souvent très intéressantes.
    "J'appelle bourgeois quiconque pense bassement." Gustave Flaubert
  • Sur Kaggle, j'ai vu une offre en France il y a 2 ans et il n'y en a pas une actuellement, mais en Grande-Bretagne, Hollande, Allemagne si.
    Les tarifs bruts débutants sont 400 € / j jusqu'à 1200 € / j séniors confirmés
    http://www.journaldunet.com/business/salaire/data-scientist/salaire-01172 me semble correct.
  • Je te confirme qu'il y a pas mal de boulot dans ce secteur en France, il y a d'autres sources d'annonces que Kaggle :-)
    "J'appelle bourgeois quiconque pense bassement." Gustave Flaubert
  • De base je parlais de Kaggle pour s'entrainer... mais n'hésite pas à donner les liens vers les sites d'offres d'emploi.
  • Ce n'est pas vraiment l'objet du forum, et ceux qui sortent actuellement des filières n'ont même pas à consulter des offres d'emplois :-)
    Il faut juste que ceux qui s'engagent dans cette voie sachent qu'ils n'auront aucun mal à trouver du boulot en France. En général ils le savent ...
    "J'appelle bourgeois quiconque pense bassement." Gustave Flaubert
  • @naforito : à part peut-être les martingales, tout ce que tu as cité est fondamental, notamment pour embrayer sur la statistique (je suppose que tu as aussi vu le théorème central limite).

    @soleil vert : comme te le dit xax, il y a pas mal de postes de data scientist en France (je le sais d'autant mieux que j'en suis un moi-même). Par contre, comme d'habitude, il y a 10 à 20 fois plus de postes en Île-de-France que dans n'importe quelle agglo de province (il suffit de consulter Linkedin, Indeed ou Monster pour voir des offres dans des secteurs très variés).

    @xax : les 400 à 1200€/jour sont probablement un prix de vente d'un consultant et non un salaire, celui--ci oscillant pour un début de carrière en région parisienne entre 38000 et 45000 € bruts annuels.
  • @paf j'ai pratiqué en consulting épisodiquement, sachant que le net est de l'ordre de 40 % on a grosso modo l'ordre de grandeur que tu donnes.
    Une précision aussi, évidente, les salaires en IDF sont de 30 à 50% majorés par rapport à la lointaine province.

    Pour les ingénieurs qui ne sont pas super heureux dans leur boulot je conseillerais d'examiner ce secteur d'activité. Le bagage mathématique n'est pas si élevé que ça en pratique pour être opérationnel, et de la bonne biblio existe en français (cf. le Saporta ou les bouquins des gens de Rennes par exemple). Par contre il faut avoir parfois une intelligence "physique" des problématiques (où évidemment vient rapidement la question € ou $) et avec une bonne pratique préalable R / BDD / Python etc.
    "J'appelle bourgeois quiconque pense bassement." Gustave Flaubert
  • Et pour l'apprentissage par renforcement est-ce que c'est un atout pour un prochain data scientiste ?
  • Je commence à me demander si tu as le début d'une idée sur ce que fait un datascientiste...

    Tu devrais lire quelques livres (400 pages chacun) sur les méthodes utilisées!

    "apprentissage par renforcement" est une méthode parmi d'autres à utiliser si elle convient donc à apprendre évidement.
  • Je n'ai pas encore une idée c'est pour cela je vous demande des conseils
  • @naforito on ne vous a pas fait un panorama en début de Master ?!!! Je souscris à la suggestion de soleil_vert, vas à ta BU et documente toi avec les bouquins les plus récents pour te faire une idée large du secteur que tu as choisi ! Tu as aussi certainement un abonnement pour les ouvrages numérisés. Les études de cas te permettront de bien voir les différents aspects du boulot et les différents secteurs (industrie, tech/IT, finances-assurances, un peu le médical)
    Mais bon a priori si ton cours est bien pensé et les intervenants compétents ne te pose pas de questions : apprend tout ! Tu auras alors l'occasion d'interagir fructueusement avec les enseignants.
    "J'appelle bourgeois quiconque pense bassement." Gustave Flaubert
  • Je n'ai pas encore une idée c'est pour cela je vous demande des conseils

    Fait les tutos www.kaggle.com
    documente toi avec les bouquins les plus récents pour te faire une idée large du secteur

    Même un livre d'une dizaine d'années est encore à la page! Au moins sur la théorie.

    Il y a ce genre de livre https://www.eyrolles.com/Informatique/Livre/data-science-from-scratch-9781491901427/ sur comment implémenter soit même (ce que l'on ne fait pas en entreprise) les algos de bases.
Connectez-vous ou Inscrivez-vous pour répondre.