Dark Data : enjeux de ces données inexploitées

Data
Mais que se cache-t-il derrière cette notion et quel est l’intérêt de mettre ces Dark Data en lumière ? Dans le monde des Big Data, un nouveau terme a émergé depuis quelques temps : celui des Dark Data (ou données noires).

On appelle Dark Data l’ensemble des données collectées et stockées, mais non exploitées. Elles sont souvent cachées, non structurées, ce qui rend difficile leur exploitation. L’augmentation de la volumétrie de ces Dark Data vient de la baisse du coup du stockage de la donnée. On stocke des données sans savoir comment les exploiter, juste au cas où... Le challenge est donc de trouver comment donner de la valeur à toutes ces données inexploitées.

Exemples & exploitation

Dans le cas d’une entreprise possédant un site Web, un exemple de Dark Data serait les logs du serveur qui seraient simplement stockés, et non exploités. Cela peut représenter une quantité importante de données, et leur exploitation pourrait donner des informations importantes pour guider la stratégie de l’entreprise, comme par exemple l’évolution du nombre de visiteurs, leur localisation, les pages principalement visitées...

Un autre exemple de Dark Data serait les rapports de réparation d’appareils électroniques. Si ces rapports sont conservés uniquement pour l’historique des réparations, ce sont des Dark Data. Mais si ces données sont analysées, et transmises au concepteur du produit pour l’améliorer, alors ces données prennent de la valeur, permettront de fiabiliser le produit et réduire les risques de panne.

Où chercher ?

La première difficulté pour pouvoir exploiter les Dark Data est d’abord de savoir qu’elles existent ! Les sources de ces données peuvent être très variées. Voici des exemples de sources potentielles :

  • L’historique des anciennes versions de chaque document
  • Les bases de données inactives sur des serveurs non utilisés
  • Les fichiers de log
  • L’ensemble des mails archivés, avec leurs pièces jointes oubliées
  • Les anciennes données des employés partis de la société
  • Les données de la société stockées chez des partenaires ou sur le cloud

Une fois connues, il faut pouvoir déterminer quelle est leur valeur potentielle, si leur conservation est justifiée, et si oui, comment les exploiter.


Statistiques

D’après une étude IBM, plus de 80% de l’ensemble des données sont aujourd’hui des Dark Data non structurées. IBM estime que ce taux atteindra 93% en 2020.

Comme indiqué dans l’illustration suivante, seules 12% des données sont effectivement exploitées par les sociétés. Le reste étant des ROT (pour Redondante-Obsolète-Triviale : données sans valeur ajoutée), et des Dark Data qui représentent la plus grosse partie de l’ensemble.


Les bonnes pratiques

  • Réaliser régulièrement des analyses pour identifier et supprimer les données devenues obsolètes


  • Ne pas stocker les données que l’on sait ne jamais vouloir exploiter, ou à minima leur attribuer une date de péremption


  • Cartographier les Dark Data existantes, et trouver la façon de les exploiter pour les sortir de l’ombre