Article – Data Lake : définition et bonnes pratiques

Environ 2,5 quintillions d’octets de données sont créés chaque jour, un volume disposé à croître chaque année à mesure que la société et les entreprises se numérisent. Quelles soient structurées ou non structurées, le lac de données ou « Data Lake », apporte une véritable réponse en termes de stockage et de traitement de données massives. Zoom sur ce concept informatique avec Wissam Ben Boubaker, Cloud Solution Architect chez Orange Business.

Qu’est-ce qu’un Data Lake ?

Le terme « Data Lake » est évoqué pour la première fois en 2010 par le CTO de Pentaho, James Dixon. Il définit cette notion comme un ensemble de données stockées sous leur format orignal sans traitement préalable. Des données dites « brutes » par opposition au « Data Warehouse » qui regroupe des données transformées, à l’image d’un entrepôt organisé.

Mais à quel besoin répond ce lac de données ? Ce type de stockage a été créé pour sauvegarder les données qui ont un potentiel encore non déterminé. La valeur des données et les connaissances qui peuvent en être tirées sont des inconnues qui varient en fonction des questions posées et des recherches effectuées.

En d’autres termes, dès lors qu’un client exprime un besoin de traitement de données autre que celui provenant de bases de données traditionnelles (des images, sons, log, Analytics…), l’établissement d’un Data Lake sera nécessaire. Ces données pourront être exploitées et analysées par la suite par des Data Scientists et Data Analysts.

Quels sont les avantages ?

Un Data Lake peut apporter de nombreux bénéfices à une entreprise. Wissam Ben Boubaker en a identifié 3 principaux :

Avantage #1 : Le prix

Le coût d’un Data Lake est souvent négligeable pour une entreprise puisque celui-ci peut fonctionner sur du matériel basique voire peu onéreux, tout en étant compatible avec des logiciels open-source.

Avantage #2 : Un emplacement unique pour les données

Structurées, semi-structurées ou non structurées, qu’importe la nature des données : le Data Lake les accepte toutes. Cette centralisation des données permet de casser les silos de données et éviter leur duplication, tout en fournissant un accès transparent aux équipes concernées. Cette approche est particulièrement utile pour les opérations de conformité et d’audit interne.

Avantage #3 Analyse de données facilitée

En utilisant un Data Lake, une entreprise est en mesure d’exploiter un gros volume de données (Big Data) pour en dégager des insights et simplifier l’analyse décisionnelle en temps réel.

Comment mettre en place un Data Lake ?

Pour assurer l’exploitation efficace d’un Data Lake, Wissam Ben Boubaker recommande de définir des directives claires pour contrôler la pertinence des données entrantes, ainsi que les objectifs et les résultats attendus.

Cela passe notamment par la nomination d’un expert technique chargé de l’administration et de la gouvernance du service, capable également de veiller à l’étiquetage et classification appropriés des données. Sans cela, le Data Lake risquerait de devenir un « Data Swamp » (« marais de données »), c’est-à-dire un emplacement où il serait difficile, voire impossible, de trouver les données recherchées, car elles ne pourraient être identifiées par une requête.

D’autres bonnes pratiques sont à considérer pour la mise en place d’un Data Lake. Elles peuvent se résumer en 6 étapes :

Créer une taxonomie : identifier les informations clés comme le format, le contenu, type de données, les groupes d’utilisateurs pour classer vos données.
Explorer les données : utiliser des outils pour analyser les données afin de les classifier. Cette étape permet d’identifier les problèmes de qualité.
Simplifier et normaliser l’accès aux données : fournir une solution simple et commune d’accès aux données (exemple : API) aux utilisateurs.
Développer un catalogue : permettre aux utilisateurs de savoir ce qu’il y a dans le Data Lake.
Mettre en place des droits d’accès aux données : garantir la protection des informations sensibles grâce au chiffrement, masquage et surveillance automatisée de vos données.
Evangélisation interne : enfin, il faut former les utilisateurs à l’exploitation du service et à la configuration des outils d’Analytics.

Demain, le traitement et stockage global des données

Avant l’introduction des plateformes cloud, l’intégration et le traitement des données se faisaient sur site. Avec l’émergence du cloud, les entreprises ont désormais accès à des solutions qui simplifient la mise en œuvre de Data Lakes efficaces et performants, sans avoir à se soucier de la complexité technique qu’elles contiennent. Et cette tendance va continuer à se développer, estime Wissam Ben Boubaker. Selon lui, l’avenir sera constitué de plus en plus de technologies et de services capables d’analyser des volumes de données toujours plus importants… d’ici quelques années, nous parlerons probablement de « Data Ocean ».