Peut-on sortir d'un data swamp ?

Oui, mais cela suppose un travail de restructuration : catalogage, documentation, qualité, normalisation, sécurité, clarification des responsabilités et parfois refonte de l'architecture cible. L'objectif est de redonner aux données une valeur d'usage, et pas seulement une présence dans un stockage central.

Quel est le lien entre big data et data swamp ?

Le big data amplifie considérablement le risque de data swamp. Le volume, la vélocité et la variété des données rendent la gouvernance encore plus critique : plus les flux sont nombreux, plus il devient difficile de maintenir la qualité, la traçabilité et la documentation.

Data swamp

Définition simple : qu'est-ce qu'un data swamp ?

Un data swamp désigne un lac de données mal gouverné, devenu difficile à exploiter par manque d'organisation, de métadonnées et de qualité. L'expression décrit l'échec d'un data lake qui accumule des données brutes sans catalogue, sans règles de gestion ni documentation suffisante. Autrement dit, c'est un "lac de données devenu marécage" : les données existent, parfois en grand volume, mais elles sont mal identifiées, peu fiables ou difficiles à retrouver, ce qui limite leur valeur pour l'analyse, la décision ou l'IA.

Définition technique du data swamp

D'un point de vue technique, un data swamp apparaît lorsqu'un environnement de stockage de données accepte des flux multiples mais sans management ni gouvernance suffisants. Dans cette situation, les utilisateurs ne savent plus clairement d'où viennent les données, à quoi elles correspondent, si elles sont à jour, si elles sont fiables, ni comment elles doivent être protégées. Cette dérive favorise l'apparition de dark data, c'est-à-dire des données collectées et stockées mais jamais réellement exploitées ni analysées.

En pratique, un data swamp se caractérise souvent par :

des données difficiles à localiser ou à comprendre
des copies multiples et non synchronisées
une absence de métadonnées exploitables
un manque de traçabilité, de protection ou de qualité
une absence de contrôles d'accès clairs, rendant difficile la maîtrise de qui peut consulter ou modifier quelles données

Data swamp vs data lake : quelles différences ?

Un data lake est un référentiel central conçu pour stocker de grandes quantités de données dans leur format natif, afin de les réutiliser ensuite pour l'analytique, la BI ou le machine learning. Un data swamp correspond à un data lake mal gouverné, devenu trop désordonné ou peu fiable pour rester utile.

Le data lakehouse est une évolution architecturale qui cherche justement à éviter ce basculement en apportant au monde du data lake des mécanismes de fiabilité, gouvernance, performance analytique, gestion des métadonnées et transactions plus proches des entrepôts de données. Cette architecture hybride limite ainsi le risque qu'un lac de données se transforme en marécage informationnel.

Pour maintenir un data lake fonctionnel, des outils de gouvernance jouent un rôle central : catalogage (Collibra, Alation), gestion des métadonnées, contrôle d'accès et traçabilité permettent d'éviter la dérive vers le data swamp.

	Data lake	Data swamp	Data lakehouse
Gouvernance	Structurée, avec catalogage et métadonnées	Absente ou insuffisante	Renforcée, intégrée à l'architecture
Qualité des données	Maîtrisée via des processus clairs	Dégradée, non vérifiée	Garantie par des mécanismes de transactions
Exploitabilité	Élevée pour l'analytique et l'IA	Faible, données difficiles à retrouver	Optimale, combine flexibilité et performance
Métadonnées	Documentées et accessibles	Manquantes ou obsolètes	Gérées de manière centralisée

Problèmes et enjeux du data swamp pour les organisations

Le premier enjeu du data swamp est la perte de valeur de la donnée. Lorsque les utilisateurs passent l'essentiel de leur temps à chercher, nettoyer, rapprocher ou vérifier les données avant de pouvoir les exploiter, cette situation ralentit les projets, accroît les coûts et réduit la confiance dans les analyses produites. Dans une collectivité comme dans une entreprise, cette désorganisation compromet directement la prise de décision éclairée, car les responsables ne peuvent plus s'appuyer sur des données fiables pour orienter leurs politiques publiques ou leurs stratégies.

Le deuxième enjeu est celui de la gouvernance. Un data swamp traduit souvent l'absence d'un cadre suffisamment structuré sur les métadonnées, la qualité, la responsabilité sur les données, la sécurité, la conformité et la documentation. Or, sans cette gouvernance, les données sont stockées mais demeurent peu exploitables à l'échelle de l'organisation. Cette accumulation incontrôlée favorise également l'apparition de dark data, qui alourdissent les infrastructures sans produire de valeur.

Le troisième enjeu est opérationnel et réglementaire. Des données mal qualifiées, mal tracées ou mal protégées compliquent la conformité au RGPD, y compris lorsqu'il s'agit de sécurité, de contrôles d'accès appropriés, de partage interservices ou de gestion de données sensibles. Dans les organisations publiques comme dans les entreprises, cela peut fragiliser des projets de plateforme de données, d'hyperviseur, d'open data ou d'IA si la gouvernance n'est pas structurée dès le départ.

Enfin, le data swamp pose un enjeu de souveraineté et d'efficacité collective. Que ce soit dans une entreprise ou une collectivité, une organisation peut techniquement stocker beaucoup de données, mais si elles ne sont pas fiables, compréhensibles, documentées et accessibles dans un cadre maîtrisé, elles ne soutiennent ni la décision ni l'innovation.

Exemples concrets de data swamp dans les collectivités

Dans une collectivité, un data swamp peut apparaître lorsque plusieurs services versent des fichiers, flux ou exports dans un même espace de stockage sans modèle commun, sans catalogue, sans dictionnaire de données ni règles de mise à jour. Au bout de quelques mois ou années, personne ne sait plus exactement quelle version utiliser, quelles colonnes font référence aux mêmes objets, ni si les données sont encore fiables.

Les rapports annuels produits par différents services se retrouvent alors en versions multiples et non consolidées : le service urbanisme publie son rapport, le service environnement le sien, sans coordination ni métadonnées permettant de les rapprocher. Ces jeux de données deviennent progressivement du dark data, c'est-à-dire des informations stockées mais inexploitables faute de documentation ou de traçabilité.

Dans un projet de plateforme de données territoriales, le risque de data swamp apparaît si l'on centralise massivement les données de bâtiments, mobilités, eau, éclairage, capteurs ou SIG sans travail préalable sur l'interopérabilité, la gouvernance et les spécifications d'usage. La plateforme existe techniquement, mais elle ne produit pas la valeur attendue parce que les données sont trop peu maîtrisées pour être utilisées de façon transverse. Ce phénomène touche aussi les entreprises partenaires des collectivités qui alimentent le data lake territorial sans cadre commun.

Dans des projets d'IA ou de machine learning, le data swamp devient particulièrement problématique : les équipes perdent du temps à identifier les bonnes sources, à nettoyer les jeux de données et à vérifier leur fiabilité au lieu de produire des modèles robustes.

Data swamp

Définition simple : qu'est-ce qu'un data swamp ?

Définition technique du data swamp

Data swamp vs data lake : quelles différences ?

Problèmes et enjeux du data swamp pour les organisations

Exemples concrets de data swamp dans les collectivités

Questions fréquemment associées à Data swamp

Data

cloud computing

API

Souveraineté numérique

Datalake

Publier ses données en open-data (plateforme, licence, fonctionnalités)

Organiser les données, l’interopérabilité des systèmes et la gouvernance pour bâtir un hyperviseur

La gouvernance territoriale des données réinventée grâce à la plateforme Terreze dans l’agglomération de La Rochelle (17)

Châlons-en-Champagne (51) construit son projet autour d’un hyperviseur souverain open source

A Porto-Vecchio (2A), le projet LiÀ : une plateforme data au service des politiques publiques

Vous souhaitez en savoir plus sur le numérique et l'IA ?

Votre avis nous intéresse

Si vous acceptez d'être recontacté au sujet de ce commentaire, merci de préciser votre email (politique de confidentialité)

Définitions

Définition simple : qu'est-ce qu'un data swamp ?

Définition technique du data swamp

Data swamp vs data lake : quelles différences ?

Problèmes et enjeux du data swamp pour les organisations

Exemples concrets de data swamp dans les collectivités

Questions fréquemment associées à Data swamp

Les termes en lien avec Data swamp

Data

cloud computing

API

Souveraineté numérique

Datalake

Les propositions en lien avec Data swamp

Publier ses données en open-data (plateforme, licence, fonctionnalités)

Organiser les données, l’interopérabilité des systèmes et la gouvernance pour bâtir un hyperviseur

Les retours d'expérience en lien avec Data swamp

La gouvernance territoriale des données réinventée grâce à la plateforme Terreze dans l’agglomération de La Rochelle (17)

Châlons-en-Champagne (51) construit son projet autour d’un hyperviseur souverain open source

A Porto-Vecchio (2A), le projet LiÀ : une plateforme data au service des politiques publiques

Vous souhaitez en savoir plus sur le numérique et l'IA ?

A Porto-Vecchio (2A), le projet LiÀ : une plateforme data au service des politiques publiques