Forecasting.ai

Le blog de Forecasting AI

Blog

>

Entreprises

>

L'approche Data Centric

L'approche Data Centric

Par G. H.

|

17 février 2022

|

Entreprises

|

fren

Si nous reconnaissons que la création de valeur passe par l'utilisation des données, alors à l'ère du Big Data, nous devons nous poser les bonnes questions sur notre capacité à identifier, collecter et analyser les données, mais surtout à percevoir leur valeur pour l'entreprise, ses clients, ses fournisseurs et ses partenaires.


En adoptant le concept de Data Centric, une entreprise sera en mesure d'extraire de la valeur de toutes les données, qu'elles soient blanches (internes), grises (externes) ou noires (dark data : données présentes en grande quantité dans les entreprises mais non utilisées). Pour y parvenir, une entreprise doit changer son approche actuelle des données, héritée de 20 ans de culture de la business intelligence.

La vision issue de la business intelligence


Les architectures d'analyse de données qui existent dans les entreprises suivent le plus souvent le même modèle. Les outils de collecte de données déversent les données dans un référentiel, où elles sont nettoyées et rapprochées, et finalement stockées dans un entrepôt de données pour que les utilisateurs puissent les analyser avec des solutions de business intelligence. Par conséquent, les limites des données et de l'analytique se limitent au périmètre, qui est contenu et contrôlé par l'entreprise. L'ensemble du processus consiste à répondre à des questions sur la base de données connues.

Si une entreprise sait anticiper la valeur associée à l'utilisation des données blanches, qu'en est-il de l'utilisation des données grises et des données sombres, puisqu'elle n'est par définition pas préparée à recevoir ces données, et encore moins à en déterminer la valeur ?

Repenser l'approche des données


Pour qu'une entreprise puisse extraire de la valeur de toutes les données, c'est-à-dire les collecter, les stocker et les analyser toutes, elle doit changer son approche de la donnée. La logique actuelle consiste à mettre en œuvre une plateforme Big Data pour déployer le Data Lake. Ce lac de données apporte une nouvelle dynamique au système d'information en offrant un espace global pour stocker et analyser toutes les données, brutes ou raffinées, provenant de sources internes ou externes.


Souvent, l'erreur est que l'entreprise conserve la vision traditionnelle de l'intégration des données : les données sont extraites de la source et copiées dans le data lake pour les rendre disponibles à l'analyse. Cependant, avec l'arrivée de très grandes quantités de données, cette stratégie consistant à rassembler toutes les données en un seul endroit peut être contre-productive. Potentiellement coûteuse en termes de temps, de traitement et de stockage, la valeur créée peut être faible. Il est donc important d'identifier les sources de données qui doivent être intégrées et de repenser la stratégie d'intégration inter-applications.

Pour que la stratégie Data Centric soit couronnée de succès, elle doit être liée à un autre concept : l'entreprise étendue.

De nouvelles limites pour le système d'information


Aujourd'hui, l'informatique a " abandonné " certaines données sans pouvoir les capturer et/ou les intégrer facilement dans le système d'information. Ces données grises et dark data sont, par exemple, des données numériques créées dans le cloud et manipulées directement par les services marketing, ou encore certaines données de production industrielle qui restent en place parce qu'elles sont difficiles à rapatrier dans un système d'information.

Ainsi, la notion d'isolement des données est poussée à ses limites ; les données isolées ne résident plus dans un entrepôt de données, mais sont déportées " quelque part " à l'intérieur ou à l'extérieur de l'entreprise tout en restant visibles pour le métier.

La notion d'entreprise étendue est née du constat que l'informatique ne considère ou ne valorise les données que si elle sait les identifier, les gérer et, si nécessaire, les stocker. Dans la logique du Data Centric, il devrait être possible de voir et d'analyser toutes les données de l'entreprise, y compris celles qui ne se trouvent pas dans les limites traditionnelles du système d'information. Cependant, comme copier toutes les données de toutes les sources n'a pas de sens, même dans le contexte du Big Data, il faudrait privilégier une approche dans laquelle le système d'information s'étendrait virtuellement à toutes les sources de l'entreprise.

Mais si toutes les données ne sont pas copiées localement dans un "lac de données", comment les parcourir et les analyser pour en tirer profit ?

L'edge computing


S'il n'existe pas de traduction littérale du terme Edge Computing, l'idée générale est simple : ajouter de la valeur aux données là où elles résident. En fonction de la stratégie de l'entreprise en matière de données et afin d'éviter un déplacement massif et coûteux des données vers le Data Lake, l'Edge Computing préfère traiter l'information au plus près des données, en ne renvoyant que les données utiles vers le Data Lake et à moindre coût.


Les nouveaux compteurs intelligents de Linky en sont un très bon exemple : ils sont capables de transmettre au réseau soit la consommation électrique du client sur une période donnée, soit le montant total de sa consommation quotidienne. Ces informations seront stockées (y compris les pics de consommation) dans le lac de données de l'opérateur électrique.

La logique Data Centric offre à l'entreprise une flexibilité sans précédent dans la création d'un projet Big Data. En outre, l'objectif de valorisation des données permet d'éviter les pièges des réflexes issus de 20 ans d'histoire de la BI, aide à définir les frontières des données et favorise finalement l'adoption du Big Data en solidifiant et en rationalisant l'utilisation du Data Lake. Et c'est sans oublier les aspects de bonne gouvernance et de sécurité qui ont certainement un impact fort sur la mise en œuvre de tels projets.