Lancé fin 2018 à l’occasion de la conférence AWS re :Invent, le service Lake Formation d’Amazon illustre la façon dont le Cloud permet aujourd’hui d’accélérer significativement la réalisation des projets d’analyse de données à grande échelle.
Se lancer dans une démarche Big Data quand on gère directement ses propres infrastructures n’a rien d’une sinécure. De l’expression de besoins à la mise en production, il s’écoule facilement plusieurs mois, rythmés par des prises de décision très structurantes, liées aussi bien aux aspects financiers du projet qu’au choix des différents outils qui composeront le pipeline de données.
L’avènement de services managés dédiés à l’analyse de données chez la plupart des grands fournisseurs de cloud apparaît dans ce contexte comme une bouffée d’air frais. Au-delà des bénéfices intrinsèques au Cloud que sont l’élasticité ou la facturation à l’usage (pay as you go), ils permettent de dissocier le stockage des données de leur traitement et donc de déclencher très rapidement un processus, quelle que soit la nature exacte ou l’emplacement des clusters.
Des briques Big Data nativement Cloud
La plupart des grands fournisseurs de cloud ont développé des plateformes dédiées au Big Data. Google Dataproc et Amazon EMR (Elastic Map Reduce) permettent par exemple d’exploiter Spark, Hadoop, Pig ou Hive sans avoir à gérer les problématiques liées à l’infrastructure et en profitant d’une intégration native avec le reste d’un catalogue qui compte déjà de nombreux services dédiés à l’analyse de données.
Chez AWS, Amazon EMR se repose bien sûr en premier lieu sur les instances d’EC2 et le stockage principalement sur S3, mais aussi Redshift et bien d’autres, mais il s’interface également avec Glue (transformation de données), Athena (service de requête interactif), QuickSight (visualisation de données), Kinesis (collecte et chargement temps réel des données), etc. Amazon a par ailleurs largement fait évoluer S3 ces dernières années pour en faire une alternative viable aux clusters Hadoop sous HDFS.
AWS Lake Formation pour accélérer les projets
Parmi les derniers nés de la grande famille des services Amazon, AWS Lake Formation intervient précisément pour accélérer la création et la configuration d’un datalake. Objectif : réduire le temps de mise en œuvre de quelques mois à quelques jours, en définissant de façon centralisée les stratégies de sécurité, de gouvernance et d’audit.
Lake Formation fonctionne ainsi comme un template permettant de paramétrer l’ensemble des services nécessaires pour charger les données depuis des sources diverses, définir les tâches de transformation, les nettoyer grâce au machine learning et les réorganiser de façon à ce qu’elles puissent être exploitées avec le moins de friction possible par les Data Scientists ou les Citizen Data Scientists.
Faire gagner du temps : un enjeu de compétitivité
Les efforts d’Amazon sur le segment de la Data Science illustrent bien l’enjeu concurrentiel du monde de l’Analytics dans un contexte marqué :
- par la hausse continue des investissements dans le Cloud (+50% d’ici 2022 selon le Gartner)
- par l’arrivée de nouveaux entrants comme Alibaba sur un marché traditionnellement tenu par une poignée d’acteurs américains
- par l’émergence de projets et donc de nouveaux profils de plus en plus spécialisés
Le moment est donc particulièrement propice pour mobiliser en masse ses données !