Les métiers de la data, partie 1

Les métiers de la data, partie 1

Analyste métier, Data Analyst, Data Scientist, Data Engineer

L’effervescence qui entoure tous les sujets liés à la data et à l’IA déclenche un vent d’attention sans précédent autour des métiers liés à la donnée. Problème : les enjeux associés ne sont pas toujours bien maîtrisés, et certains éditeurs profitent de ce flou pour positionner des logiciels ou des services censés permettre à un.e collaborateur.trice de devenir Data Scientist, Data Analyst ou Data Engineer en seulement quelques clics. De plus en plus de métiers liés à la donnée sont apparus avec la Big Data, pourtant sont associés à chacun de ces intitulés des problématiques et des compétences spécifiques.

Voici une présentation synthétique de ces différents métiers. Bien sûr, gardez en tête que les frontières qui les séparent évoluent et se confondent en fonction de la complexité du projet et/ou des entreprises. Par ailleurs, d’autres métiers existent mais seront détaillés dans un futur article (Data Architect, Data Manager, Chief Data Officier, Statisticien, etc.).

Analyste métier : au service de la Business Intelligence

Les analystes métiers interrogent spontanément les chiffres. Ces profils utilisent les outils mis à leur disposition pour générer des rapports enrichis de représentations graphiques. Progressivement, il s’agit d’installer des indicateurs de performance qui leur servent à passer du reporting au monitoring. Leurs analyses descriptives permettent d’échafauder des hypothèses à partir des données manipulées. Les analystes métiers n’ont pas particulièrement de compétences en programmation et ne maîtrisent ni les statistiques (inférentielles, bayésiennes), ni les systèmes de gestion de base de données (SGBD). En revanche, ces profils sont à l’aise avec des outils propriétaires comme Excel, Power BI, Tableau ou Qlik.

Exemple de mise en situation : pour préparer le dernier trimestre, la direction demande un rapport sur les ventes de glaces de l’année en cours détaillé semaine par semaine.

On peut observer une augmentation de 32% des ventes entre le 1er et le 3è trimestre. Cette progression pourrait être due au fait que durant cette seconde période la population est principalement en extérieur. En effet, nous vendons davantage de glaces les jours de festivals et d’animations d’été (fête de la musique, etc). Nous pourrions émettre l’hypothèse que le nombre de personnes à l’extérieur impacte directement nos ventes. Dans ce cas, on devrait avoir un pic de vente durant les fêtes de fin d’année.

Data Analyst : minimiser les risques

Les Data Analysts disposent pour leur part de solides connaissances en statistiques. Leurs connaissances des tests d’hypothèses, des distributions de probabilité et des méthodes de régression leur permet d’accompagner les décideurs en minimisant les risques liés à leurs prises de décisions. Leur rôle ne se limite pas à manipuler les données au travers d’outils propriétaires : il s’agit de développer de véritables workflows qui partent de la donnée brute et passent par la statistique inférentielle ou bayésienne pour aboutir à des résultats directement exploitables par les métiers. Ce profil maîtrise généralement un ou plusieurs langages de programmation (comme R ou Python) ainsi que les principaux SGBD. 

En analysant les données, j’ai pu constater que la variabilité entre les ventes était étroitement liée au nombre de personnes à l’extérieur. En investiguant davantage, j’ai compris que le nombre de personnes à l’extérieur est très corrélé et expliqué par la température de la journée de vente. Plus celle-ci est élevée et plus les ventes sont importantes. Puisque la température est basse pendant les fêtes de Noël, la population que nous pouvons atteindre est moindre et consomme différemment, nous devrions donc proposer un autre type de produit. Par exemple, une nouvelle sélection de vins chauds.

Data Scientist : construire des modèles

Grâce à leur expertise et surtout leur solide expérience en statistiques et Machine Learning les Data Scientists (DS) développent des systèmes capables d’effectuer des tâches d’analyse complexe. Leur rôle est de créer des modèles prédictifs suffisamment robustes pour offrir le niveau de performances attendu par les décisionnaires. Les DS sont donc capables d’évaluer des modèles statistiques et ont le recul nécessaire afin d’en discerner les faiblesses et de proposer des axes d’amélioration. Ils/elles créent également les algorithmes de Machine Learning utilisant les modèles d’apprentissage adaptés à leurs besoins, les testent et les optimisent, car la Data Science est un processus itératif.

Exemple de mise en situation : la direction souhaite ajuster sa production et ses stocks en fonction de la demande, sans risquer de se trouver prise au dépourvu lors des pics de demande.

J’ai discuté avec le Data Analyst qui m’a fait part de ses conclusions. Avec des données météo de qualité, il devrait être possible de prédire le volume des ventes de glace en fonction du temps et d’autres paramètres comme la tenue d’événements particuliers ou les vacances scolaires. A partir de ce modèle d’apprentissage il pourra certainement être possible d’estimer la quantité de matières premières à commander. De plus, il pourrait être également possible de construire un système de recommandation qui indiquera quelles saveurs proposer sur un segment de population ou une zone géographique donnée.

Data Engineer : garantir l’accès à des données fiables

Exploiter les données c’est bien, mais exploiter des données pertinentes et de qualité c’est mieux. Pour extraire toute la richesse de leurs données, les entreprises ont besoin d’infrastructures capables d’assurer une exploitation des données fiables, à jour et sécurisées, mais aussi d’une architecture capable de supporter l’évolution de la volumétrie des données hétérogènes. Spécialistes du Cloud, de l’administration d’infrastructures et du développement logiciel, les Data Engineers construisent et optimisent l’architecture chargée de supporter le pipeline de production, de stockage et d’exploitation des données. Son travail permet aux Data Analysts et aux Data Scientists de se concentrer sur les missions analytiques.

Les Data Engineers pilotent ainsi l’intégration des sources de données, créent les API qui vont rendre les données exploitables et supervisent l’ensemble de l’infrastructure pour assurer des performances optimales. Ils/elles jonglent notamment avec des technologies telles que Java et/ou Scala, Pig, Hive, Hadoop, Spark, Kafka et NoSQL, en profitant éventuellement des capacités d’abstraction offertes par les environnements Cloud (Amazon Web Services, Google Cloud Platform, Microsoft Azure).

Nous allons donc construire une infrastructure capable de prendre en charge une actualisation régulière des cours de la bourse ainsi que des données météo, les calendriers sportifs et beaucoup d’autres paramètres. Notre infrastructure devra donc être capable d’agréger ces données quasiment en temps réel.


La tentation du mouton à 5 pattes

Plutôt que de recruter des profils distincts, certaines entreprises sont tentées de chercher le « mouton à cinq pattes ». On voit ainsi régulièrement passer des offres d’emploi relatives à des profils de « Data Scientist full stack », ou des recherches portant sur un Data Scientist capable de concevoir une infrastructure big data. De notre point de vue, c’est une erreur : un Data Scientist doit par exemple réaliser une veille constante afin de se maintenir à jour et développer ses connaissances dans un domaine en constante évolution. De la même manière, les tâches et connaissances d’un Data Engineer sont si vastes qu’il doit également fournir un travail conséquent afin de rester performant. S’il est vrai que certains profils ont des compétences communes, les connaissances en machine learning, en statistiques, en forecasting, en traitement automatique du langage naturel (NLP), que peut avoir le Data Scientist ne remplacent pas les compétences avancées en développement, sur les framework big data, en administration des systèmes que peut avoir le Data Engineer.


Conclusion

Cette première partie du tour d’horizon des métiers du monde de la data met en lumière la diversité des missions associées. Pour une entreprise qui souhaite extraire de la valeur de ses données, l’essentiel ne réside cependant pas dans les intitulés de poste : l’enjeu principal consiste d’abord à développer et encourager une véritable culture de la data auprès des différents métiers de l’entreprise. De ce fait, il est nécessaire de comprendre quels sont leurs rôles et en quoi ils peuvent servir la stratégie de l’entreprise, plutôt que de chercher à tout prix des ninjas dopés aux algorithmes de ML mais incapables de communiquer avec leurs collaborateurs, que ce soit dans un sens ou dans l’autre. Enfin, il est primordial que les décisionnaires de l’entreprise soient les premiers à adhérer et à incarner cette transformation de l’organisation opérée par la Data. Cela sera rendu possible en développant une compréhension claire des avantages, des challenges et des conséquences de leurs décisions : prérequis indispensable afin de construire une culture Data-driven.

Firms must become much more serious and creative about addressing the human side of data if they truly expect to derive meaningful business benefits.

Harvard Business Review, 2019