Optimisation d’un lac de données pour un département de R&D d’un constructeur automobile international

Optimisation d’un lac de données pour un département de R&D d’un constructeur automobile international

Le client est l’un des plus grands constructeurs automobiles au monde. Nous avons travaillé plus particulièrement avec le centre technique de Zaventem, qui abrite son département européen de recherche et développement, afin de renforcer le rôle de la recherche et du développement des véhicules. Nous avons d’abord été consultés pour déplacer l’application des ingénieurs R&D dans le cloud en utilisant l’Infrastructure as Code. Après avoir mené à bien cette migration, nous nous sommes rendu compte que les performances du système de requêtes de données pouvaient être améliorées. Nous avons offert notre expérience pour conseiller le client sur une meilleure approche pour traiter ses données en optimisant son lac de données.

Contexte & challenges

A des fins de recherche, le département R&D souhaitait collecter et stocker les données du parc de véhicules des ingénieurs R&D. Une multitude de capteurs installés dans chaque voiture envoyent toutes les deux minutes des données au siège social (comme la vitesse, l’angle de direction, la pression, etc.) via des modems 4G. Il en résulte une quantité massive de données non traitées provenant d’un grand nombre de voitures utilisées en conditions réelles.

Le principal défi consistait à nettoyer ces données et à les rendre faciles à interroger afin que les ingénieurs puissent les utiliser pour leurs études R&D (exemple : comment réduire les émissions de CO2 et la consommation de carburant). Les ingénieurs utiliseraient ensuite ces données pour effectuer des analyses préalables en les comparant aux données fournies par des prototypes de voitures équipées de moteurs d’essai.

Dans ce contexte, le client était confronté à plusieurs problèmes :

Notre client a demandé notre aide pour améliorer la qualité de ses données, les nettoyer, les traiter et les stocker correctement dans une plateforme de données centrale dédiée à l’analyse de la R&D.

Notre approche

Nous étions responsables de l’architecture, de la conception et de la mise en place de la solution complète dans le Cloud AWS.

Nous avons créé une architecture initiale basée sur les meilleures pratiques de DataOps, que nous avons ensuite adaptée pour répondre aux exigences de notre client.

Nos architectes data ont donc effectué l’analyse, conçu l’architecture et mis en œuvre le projet (y compris l’ingestion de données, le lac de données et l’administration web).

Le projet était composé de plusieurs phases :

  1. Comprendre les exigences initiales du client et mettre en œuvre l’architecture sur la base de ces critères. L’infrastructure qui en a résulté s’est révêlée coûteuse et non évolutive, inadaptée à la quantité de données attendues et aux besoins du département R&D.
  2. Reconstruire une nouvelle architecture de lac de données plus optimisée, établir un PoC et le faire approuver.

Le lac de données est une architecture en quatre zones (temporaire, brute, sécurisée et propre) où les données circulent de la droite vers la gauche. Le lac de données est hébergé sur S3 et indexé à l’aide d’Athena pour un équilibre parfait entre performance et optimisation des coûts.

Bénéfices

En offrant une combinaison de notre expertise dans les domaines Cloud et Data, nous avons réussi à répondre aux attentes du client, en fournissant une architecture de lac de données optimisée. En outre, nous avons fourni une solution qui est :

Notre approche de l’infrastructure intègre également toutes les pratiques de DataOps comme le CI/CD et le IaaC, qui n’étaient pas des normes pour le client à l’époque.

Technologies & Partenaires

Data Lake Optmization AWS Athena Batch Cloudformation EC2 ECR ECS Airflow Python Dask
Optimisation du lac de données avec AWS Athena Batch Cloud Formation EC2 ECR ECS Airflow Python & Dask