Y a-t-il un volume de données nécessaire pour faire du Big Data ?

Y a-t-il un volume de données nécessaire pour faire du Big Data ?

Mon entreprise ne possède que 100 gigas de données, est-elle éligible pour « faire du Big Data » ?

Cette question fait-elle sens ? Pas vraiment.

Le volume de données auxquelles vous avez accès dépend de la nature de votre activité. 10 Go d’enregistrements vidéo ne représentent pas du tout la même chose que 10 Go de texte : par exemple, les plus de 5 millions de revues d’utilisateurs de Yelp concernant près de 174 000 entreprises différentes tiennent sur une simple clé USB de 4 Go1

Et pourtant, ces données sont suffisantes pour faire tourner des algorithmes d’apprentissage et de prédiction conçus correctement.

Le terme « Big Data » est vague, sans doute volontairement. Il désigne en même temps un volume de données, un ensemble de technologies et de techniques pour gérer et analyser des données volumineuses, des types particuliers de données, un nouveau paradigme de fonctionnement d’une entreprise…

De ce fait, le Big Data (tout comme l’« Intelligence Artificielle » ou le « Deep Learning » d’ailleurs), est perçu comme quelque chose d’impressionnant, peut-être même d’effrayant ou mystérieux, et qui a ainsi pour effet de provoquer deux types de comportements chez les acteurs du numérique :

Pour les premiers, nous pensons que cela fait partie intégrante du fonctionnement du business que de profiter des tendances ayant le vent en poupe pour promouvoir son activité. Et cela poussera peut-être réellement, sur le moyen terme, une utilisation des outils Big Data.

Aux seconds, nous répondons qu’ils sont en fait probablement plus riches que vous ne le pensez… et que la data n’a pas besoin d’être big pour être utile.

Si vous cherchez à savoir si votre entreprise est prête pour le Big Data, sûrement avez-vous déjà approché les modèles BDMM (pour Big Data Maturity Models) créés justement pour définir votre degré de maturité avant entamer une démarche d’évolution vers le Big Data.

Mais dites-moi, lorsque vous envisagez faire quelque chose, appréciez-vous lorsqu’on vous dit que vous n’êtes pas assez mature pour le faire ? Non. Personne n’aime ça.

C’est la même chose pour le Big Data. Vous n’êtes peut-être pas encore prêt ni équipé pour en faire, certes, mais mature ? si, vous l’êtes. Et ce, dès lors que vous travaillez dans une entreprise ayant comme matière première la donnée et que vous avez démarré ne serait-ce qu’un questionnement sur vos fonctionnements et sur votre stratégie future.

Les modèles BDMM constituent des avis parmi tant d’autres (et sont donc toujours bons à prendre), mais peuvent également vous dissuader d’entamer votre démarche d’évolution vers le Big Data.

Nous considérons que vous êtes prêts à démarrer ce changement dès lors que :

  1. vous souhaitez apprendre de vos données (c’est-à-dire faire du prédictif puis du prescriptif), sur la base d’une approche Machine ou Deep Learning,
  2. vous envisagez profiter des technologies du Cloud (notamment l’installation de data lakes) pour uniformiser la gestion et l’analyse de vos données, ainsi que pour les sécuriser,
  3. vous souhaitez passer le cap de l’analyse et du reporting temps réel via des outils de visualisation performants et adaptés à l’organisation de vos données.

Quid du volume de données nécessaire ?

Cette question se pose toujours à ce stade, mais cette fois-ci concernant l’utilisation d’algorithmes de Machine/Deep Learning : en fonction de votre activité, même plusieurs centaines de mégas de données peuvent être suffisants pour profiter de la puissance et de la pertinence de l’apprentissage automatique. Tout réside premièrement dans la qualité de ces données. Mais il ne faut pas non plus se leurrer : si vous n’avez qu’un fichier Excel avec douze lignes et huit colonnes, un papier et un crayon sont suffisants !

A l’extrême inverse, le phénomène d’infobésité, ou cette obsession de l’acquisition ou de la génération effrénée de données, peut vite se transformer en malédiction si vous ne possédez pas les outils adéquats pour gérer ces volumes et si ces volumes sont tels que vous n’êtes même plus en mesure de comprendre réellement ce qui s’y trouve. Il vaut mieux posséder relativement peu de données mais claires et de bonne qualité, qu’un immense data center rempli de données qui ne seront pas forcément pertinentes — voire même incorrectes — et vous menant alors tout droit vers des prises de décision totalement erronées.

Par ailleurs, l’accès grandissant et de plus en plus simple à des bases de données externes permet d’enrichir considérablement les données que vous possédez. Ces données externes (météo, images, sons, texte, cartographie, etc.) apportent une valeur importante en offrant une base large et solide d’informations venant en complément des données que vous possédez, celles qui sont propres à votre activité et la rendent unique.

Quoiqu’il en soit, l’adoption progressive d’outils Big Data constitue un investissement pour l’avenir rentable puisqu’il vous poussera à améliorer la qualité de vos données, la façon dont vous les gérez et dont vous les traitez ensuite.

De la même façon que s’offrir un système Dolby Surround 5.1 vous donnera envie de regarder des films en 4K plutôt qu’en 480p, accéder aux solutions variées du Big Data vous donnera d’une part l’envie d’explorer de nouvelles pistes à partir de vos données et, d’autre part, les moyens pour le faire.


1https://www.kaggle.com/yelp-dataset/yelp-dataset