Data Scientist, Data Engineer, Data Analyst… Quelles sont les différences entre ces métiers ?

de | 18 juillet 2017

Le métier de data Scientist fait le buzz ces derniers temps. Le magazine Harvard Business School va jusqu’à le considérer comme le métier le plus sexy du 21éme siècle.

La Data Science reste un domaine large aux contours flous. Cela conduit à la prolifération de nouveaux termes pour désigner de nouveaux métiers (ou pas si nouveau que ça !). Parmi ces buzzwords, on retrouve : Data Scientist, Data Engineer, Data Analyst et B.I Developer. Ces métiers sont parfois méconnus ce qui ouvre la porte à la confusion.

Pour y remédier, regardons de plus prés à quoi aspire chaque métier et quelles sont les différences qui les caractérisent.

Data Analyst

Un analyste de données, est un quelqu’un qui est capable d’interroger des sources de données pour en faire des rapports et des visualisations graphiques (graphes camemberts, histogrammes etc…). Un Data Analyst a une compréhension forte du domaine métier dans lequel il opère. Ce qui lui permet de mieux communiquer avec les gens du métier.

Pour mieux explorer les données, un Data Analyst est généralement à l’aise avec les outils statistiques. Toutefois, il n’est pas forcement aussi « calé » techniquement qu’un software engineer pour traiter les grands volumes de données (Big Data).

Compétences et outils : Excel, Access, SQL, SPSS, Tableau, Statistiques…

Business Intelligence Developer

Les développeurs B.I. (Business Intelligence / informatique décisionnelle) vont mettre en place des outils de B.I. pour les besoins de l’entreprise. Ces outils se présentent généralement sous forme de Data warehouses, Datamart, ainsi que des bases de données multidimensionnelles construits à partir d’agrégation de données en provenance de plusieurs bases de données. La construction des Data warehouse et les bases OLAP est généralement effectuée à travers des Job ETL (Extract, Transform, Load) en utilisant l’outil Talend par exemple.

Ces Bases de données multidimensionnelles et Data warehouses sont par la suite utilisées par les développeurs B.I pour construire des tableaux de bords (Dashboards) et des rapports utiles pour les manageurs et les décideurs.

Les développeurs de B.I. ont généralement une connaissance métier moindre que celle d’un Data Analyst. Cependant, ils sont plus « calés » techniquement pour s’interfacer avec les différentes sources de données.

Compétences et outils : SQL, OLAP, Data warehouses, Cubes, SSAS, SSIS, ETL (Talend…)

Compétences requises par chaque profil dans le domaine de la data science

Data Engineer

Un Data Engineer est quelqu’un ayant un background technique en développement logiciel. Il peut être un Software Engineer qui s’est reconverti dans le Big Data.

Les Data Engineers vont mettre en place des systèmes de Big Data pour traiter ces dernières. Ils opteront pour des outils de stockage performants comme les bases de données NoSQL et se baseront sur  HadoopSpark, Map/Reduce pour traiter convenablement ces grands volumes de données.

Les Data Engineer vont collecter, transformer les données de différentes sources. Ce travail préparatoire permettra d’avoir des données « propres », prêtes pour qu’on leur applique dessus des techniques de Machine Learning.

En d’autres termes, le travail d’un Data Engineer est de préparer le terrain pour qu’un Data Scientist puisse se servir des données propres pour en tirer des tendances (Insights).

Compétences et outils : SQL, NoSQL, Hadoop, Data Lake, Big Data, Spark, Software Engineering, Map/Reduce…

Data Scientist

Un Data Scientist est un profil pluridisciplinaire qui aura pour mission première de tirer de l’information utile (insights) depuis des données brutes. Le métier du Data Scientist est à l’intersection entre Data Analyst et de Data Engineer. Tout en ayant des connaissances métiers dans le domaine dans lequel il évolue.

En effet, un Data scientist va explorer et exploiter les gisements de données de l’entreprise pour leur appliquer des techniques de machine learning. Il s’agit donc d’une forme de Data Analysis poussée sur de grands volumes de données. L’exposition au contexte Big Data exige qu’un Data Scientist soit familier avec des concepts comme Map/Reduce, Hadoop, Data lake etc…

L’information utile recherchée par un Data Scientist est spécifique à une entreprise et plus généralement à un domaine métier. Pour cela, un Data Scientist doit être à l’aise avec le domaine métier dans lequel il opère. Pour cela, il côtoiera les gens du métier pour creuser avec eux les différentes pistes de réflexion.

Finalement, un data scientist doit être un bon communicant pour mieux communiquer ses retrouvailles. Il usera pour cela des différents supports de présentation comme les présentations PowerPoint, ainsi que des visualisations graphiques (histogrammes, camemberts…) plus parlantes aux décideurs.

Compétences et outils : SQL, NoSQL, Python, R, Machine Learning, Deep Learning, Statistiques, Software Engineering…

 

6 réflexions au sujet de « Data Scientist, Data Engineer, Data Analyst… Quelles sont les différences entre ces métiers ? »

  1. David

    Définitions intéressantes et certainement celles qui sont les plus proches de la réalité des disciplines. Notamment pour l’analyste de donnée, au niveau de la compréhension forte du domaine métier. Je pense que c’est là le point le plus important, au delà des technologies employées.

    Je suis analyste de données, souvent qualifié de data scientist par les ingénieurs de mon entreprise, non pas parce que j’ai ces compétences, mais parce que ça fait paraître bien. Dommage, parfois j’ai l’impression que data scientist doit être un objectif pour tous ceux qui traitent de la données, ce qui rend l’analyse de données secondaire et perçue comme inadaptée.

    Merci pour la qualité des articles.

    Répondre
    1. Younes Benzaki Auteur de l’article

      Il y a un vrai effet de buzz et de marketing derrière les métiers de Data Science en général. Ce qui rajoute une confusion accru sur les définitions de ces métiers surtout pour les gens qui ne font pas forcément partie du domaine.

      Merci David pour le commentaire et ravi de vous avoir parmi les lecteurs 🙂

      Répondre
  2. Chacha

    Bonjour et Merci bcp pour ces définitions assez claires.
    En effet, je suis en fin de thèse en Mathématiques appliquées Statistiques et je fais précisément du Datamining sur données médicales. Ayant suivis 5 MOOC certifiés en Data science, Machine learning, sur Udemy et Coursera, j’ai même eu l’occasion lors d’un de ces cours d’être confrontée à un projet pratique qui était obligatoire pour l’obtention du certificat. Ma question est de savoir, pensez que je pourrai postuler à des offre de Data Scientist à l’issu de ma Thèse+ tous ces certificat? Cela est-il suffisant? En vous remerciant d’avance.

    Répondre
  3. YUS

    Bonjour , merci encore pour cet article très enrichissant , qui nous renseigne encore un peu plus, sur les métiers de la DataScience. Cependant j’ai besoin que vous m’ eclairecicez sur un certain point .Actuellement j’effectue , un Master en DataScience et j’aime la programmation .J’ ai beaucoup de compétences dans ce domaine la et , je me suis rendu compte tout récemment que j’avais aussi un penchant pour les base de donnee distribuee(ou non) avec tout l ‘environnement qui va avec (Hadoop, Spark ,MySql,..). Du coup ,j’ai ue envie de finalement terminer Data Engener. Cependant , j’hésite un peu a m y engager parce que , j’ai comme impression que ce Métier est un peut plus néglige , comparativement a celui de data science. J’ai besoin , que vous me situez un peu sur les réalité du métier Data Engener , pour m aider a prendre une décision finale , quand a mon future metier

    Répondre
    1. Younes Benzaki Auteur de l’article

      Bonjour
      Tout d’abord je vous souhaite un bon courage et une bonne continuation dans votre parcours 🙂

      Ceci dit, il y a certes une confusion encore entre le métier de data Engineer (data ing) et Data Scientist. Ce dernier, du moins sur le marché français, est souvent accordées aux gens venant du monde des statistiques ou à des analystes de données.
      Par ailleurs, le métier de Data Ing est tout aussi important, est à mon avis c’est la ou il y a plus d’opportunités de travail, car c’est lié à la programmation mais dans un contexte Big Data.

      Si vous êtes passionnée et vous avez de l’énergie à revendre, formez vous bien comme il faut sur le Data ing (Spark, Hadoop et Java et Python) tout en se forgeant une expertise sur la le Machine Learning. Vous aurez ainsi une panoplie d’outils sous la main.

      Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.