Avec l’explosion de l’IA cours de cette dernière décennie, puis de façon très — trop — générale, du Deep Learning et du Big Data, beaucoup de nouvelles fonctions « data-related » ont vu le jour. Des demandes de Data Analysts, Architects, Governors, Engineers et Scientists sont apparues, en réponse à la nécessité d’identifier différentes compétences et chaînes de compétences capables d’appliquer dans un environnement réel (celui de l’entreprise), les nouvelles techniques de gestion et d’analyse de données complexes et volumineuses.
Ces techniques étaient jusqu’à présent soit cantonnées au secteur de la recherche fondamentale, soit réservées à une élite technologique — GAFAM, NATU & BATX1 — omniprésente, attractives et innovantes. Il est désormais beaucoup plus aisé pour la plupart des acteurs du privé de de générer une réelle valeur à partir de ces connaissances.
Aussi, suivant cette transformation digitale, le poste de Data Scientist a-t-il cristallisé toutes les attentes et les espoirs de nombre de CxO ?
Ce seul poste de Data Scientist a alors connu une attractivité exponentielle, au détriment d’autres, tels les Business Analysts ou les statisticiens. Cet engouement est malheureusement souvent injuste — et injustifiée — aussi bien pour ces experts de la donnée que pour les entreprises pensant enfin avoir trouvé LE profil qui pourra répondre à toutes leurs attentes.
Quelles attentes en Data Science avons-nous identifié chez nos clients ?
La majorité des véritables besoins en Data Science que nous observons aujourd’hui consiste à épauler les CxO pour leur apporter des éléments de vérité précieux et uniques résidant dans des données volumineuses, multimodales et extrêmement complexes.
Par là, nous entendons : effectuer un véritable voyage d’exploration au cœur d’une jungle de données complexes et imparfaites2, y découvrir les « sacrosaintes Causalités3 » permettant d’apporter une vision nouvelle et unique, pour finalement parvenir à identifier des réalités business inédites.
Or, par fébrilité d’une part et souvent par (relatif) manque de ressources de l’autre, les entreprises n’osent pas toujours se lancer dans une démarche de constitution d’une équipe dédiée à l’analyse avancée de leur donnée. Ainsi, arrive-t-il souvent que ces entreprises se trouvent face à leur propre Data Warehouse / Lake débordant de données supposées précieuses, et qu’elles se posent alors la question suivante : que fait-on de tout ça maintenant ?
C’est alors que parmi tous les profils « data-related » disponibles, l’engouement autour du Data Scientist promettant quasiment l’impossible (Peut-on prédire la couleur de pantalon à la mode à Berlin en 2054 ?) biaise leur recherche, les poussant à recruter ces profils avec l’espoir qu’à eux seuls, ils seront capables :
- d’installer des composants Big Data & Cloud pour gérer et assurer un accès robuste aux données
- d’analyser ces données
- d’implémenter ou de créer from scratch des algorithmes de Machine/Deep Learning
- de les tester, les optimiser et les industrialiser
- d’assurer une restitution visuelle puissante des analyses
- et de créer des dashboards et développer des API permettant à d’autres d’avoir accès à tous ces résultats
Chacune de ces étapes constitue une charge de travail énorme et surtout une expertise dédiée ! C’est aussi pour cette raison que le poste de Data Scientist, compris comme tel, est de plus en plus qualifié de « licorne » impossible à trouver dans le monde réel (à part en Ecosse4).
Peut-on prédire la couleur de pantalon à la mode à Berlin en 2054 ?
Mais parfois, l’inverse se produit : les entreprises possèdent des données qui ne nécessitent pas l’intervention d’un.e Data Scientist mais elles espèrent, par simple méconnaissance ou à la suite de mauvais conseils, que ce profil pourra presque par magie faire émerger des vérités cachées dans les données. Dans ce cas, le.a Data Scientist se trouve coincé.e et en revient finalement à effectuer un travail de Business Analyst ou de statisticien. Il s’agit donc d’une erreur de casting qui impacte tout le monde :
- les Data Scientists sont déçus car ils n’appliquent pas leur expertise réelle
- les CxO sont déçus car ils attendent un ROI qui ne viendra pas forcément
- les Business/Data Analysts sont déçus car ils se retrouvent mis de côté malgré leurs compétences
- Et le marché global, finalement impacté, puisque la révolution promise par la Data Science se trouve freinée.
Nous avons ainsi vu apparaître une forme de méfiance et de frilosité globale autour de la Data Science et des Data Scientists, ainsi qu’une dévalorisation des profils de Business/Data Analyst et de statisticiens, constituant pourtant des piliers indispensables aux activités d’analyses des données business de toute entreprise.
De cette mauvaise définition du profil de Data Scientist et des besoins business parfois mal définis, tout le monde se retrouve un peu perdant.
Comment résoudre cela ? Et qu’attendre réellement d’un.e Data Scientist ?
De votre côté : parfaitement identifier votre besoin et bien connaître votre business.
De notre côté : maîtriser suffisamment les différentes expertises pour vous proposer le meilleur accompagnement avec le profil le plus pertinent.
Dans le cadre de nos collaborations avec nos clients, l’étape de définition précise du besoin (étape qui a l’air d’être évidente mais qui ne l’est malheureusement pas toujours) est selon nous réellement critique, car elle conditionnera le travail effectué ensuite.
- Quel est votre cas d’usage ?
- Quelles sont vos attentes / espérances ?
- Quel est le bottleneck business que vous souhaitez surmonter ?
- Quel est le volume de données ?
- Quelle est la « date de péremption » de vos données ?
- Quelle est la marge de manœuvre post-analyse dont vous disposez5 ?
- Quelle est la deadline prévue ?
- Quelles sont les sources de données ?
- Quelle est votre architecture de gestion de données en place ?
- …
En fonction des réponses à ces questions (entre autres), il sera alors possible de déterminer si votre besoin réside plutôt en un Statisticien6, un Business/Data Analyst, un Data Engineer, un Machine Learning Engineer ou un Data Scientist.
Nous considérons qu’un.e Data Scientist a une plus-value dès lors que vous disposez de données issues de nombreuses et diverses sources, que vous disposez d’un volume suffisant mais que vous ne savez pas forcément encore ce que vous allez y découvrir ni comment vous allez le découvrir…
Et c’est là une partie majeure de l’activité de Data Science : explorer aussi bien les données que les différentes techniques d’analyses statistiques, les nombreux modèles de Machine et/ou de Deep Learning, mais aussi tous les algorithmes d’apprentissage permettant d’encadrer l’apprentissage des dits modèles. Et il y a énormément de techniques, de modèles et d’algorithmes. Le profil de Data Scientist doit donc posséder une bonne dose d’ouverture, d’adaptabilité et surtout d’agnostisme : toute méthode est la bonne, car tout dépend du contexte, des caractéristiques de l’environnement data, et du problème à résoudre.
Cette étape critique d’exploration nécessite donc quelqu’un possédant une compréhension globale du « monde de la donnée », capable de réaliser des preuves de concepts (proofs of concept, PoC) convaincantes, solides et rigoureuses. Ces PoC vont nécessiter une chaîne de compétences de pointe7 vous permettant ensuite de fournir la visibilité indispensable pour la poursuite de votre stratégie d’évolution.
Conclusion
Dès lors que vous souhaitez entreprendre une démarche d’innovation basée sur l’exploration profonde des données que vous avez : faites appel à un.e Data Scientist. Ce profil vous fournira les insights précieux dont vous aurez besoin pour vous aider à déterminer la direction future de votre business.
Lorsque vous voudrez passer à l’étape d’industrialisation, faites appel aux experts suivants : aux développeurs pour la réalisation des back & front-end solides et performants, au Data Architect/Governor pour la construction d’un pipeline d’acquisition de données robuste puis la gestion efficace de ces données (point critique), au Business/Data Analyst pour l’analyse des données business et leur restitution, enfin au ML engineer pour l’optimisation extrême de l’algorithme et l’affinement de l’architecture d’apprentissage.
1GAFAM : Google, Apple, Facebook, Amazon et Microsoft ; NATU : Netflix, Airbnb, Tesla et Uber ; BATX : Baidu, Alibaba, Tencent et Xiaomi.
2Principalement : données manquantes, catégories profondément déséquilibrées, ou formats multiples et potentiellement incompatibles
3A défaut de causalités, qui sont extrêmement difficiles à prouver réellement, on tâchera la plupart du temps de mettre en avant les corrélations les plus pertinentes et les plus robustes.
4 https://www.visitscotland.com/about/uniquely-scottish/national-animal-unicorn/
5A noter que le point concernant la marge de manœuvre post-analyse est critique : une entreprise souhaitant réellement être « data-driven » doit accepter de se laisser réellement « driver » par les conclusions qui seront tirées à la suite de l’analyse avancée des données (nous reviendrons d’ailleurs dessus dans un article dédié, prochainement).
6A propos : les statisticiens sont désormais quasiment tous capable de programmer en Python/R/Matlab/Java ou autre
7Notamment : mathématiques, analyse statistique, manipulation de jeux de données volumineux, connaissances des bonnes pratiques, programmation orientée scientifique, visualisation de données, algorithmie, fondements en optimisation de code, machine learning, deep learning, raisonnement scientifique, visualisation de données & de résultats