Data
Le terme data désigne les données, c'est-à-dire l'ensemble des informations exploitables (chiffres, textes, mesures, données financières, géographiques ou d'usage) que les organisations collectent, analysent et utilisent pour piloter leurs activités. Dans les collectivités, la data constitue un actif stratégique permettant de mieux comprendre un territoire et d'objectiver les décisions publiques. Ce guide détaille sa définition, ses enjeux juridiques et ses usages concrets pour les territoires.
Définition simple de la data
Dans le quotidien d'une collectivité territoriale, la data désigne l'ensemble des informations que l'organisation produit, reçoit ou utilise dans le cadre de ses missions de service public. Concrètement, il s'agit des registres d'état civil, des données budgétaires et comptables, des flux issus de capteurs urbains (circulation, éclairage public, consommation énergétique), des documents administratifs, des bases métiers (gestion des agents, patrimoine bâti, voirie), des informations géographiques ou encore des données issues d'objets connectés installés sur le territoire.
La data peut être quantitative (nombre d'usagers d'un service, montant d'une dépense, fréquentation d'un équipement) ou qualitative (avis des habitants, observations terrain, comptes rendus). Elle se présente sous forme structurée lorsqu'elle est organisée en tableaux ou bases de données relationnelles, semi-structurée quand elle utilise des formats comme XML ou JSON, ou non structurée lorsqu'il s'agit de documents texte, images ou vidéos.
Selon leur statut, les données peuvent être publiques (produites dans le cadre d'une mission de service public), privées (issues de partenaires ou délégataires) ou internes (réservées au pilotage interne de la collectivité). Lorsque les volumes deviennent massifs et que la complexité augmente, on parle alors de big data, qui suppose des infrastructures et des méthodes d'analyse spécifiques.
Dans tous les cas, la data est devenue un actif stratégique pour les collectivités, car elle permet de mieux comprendre les dynamiques d'un territoire, de piloter les politiques publiques avec des indicateurs objectifs, d'améliorer la qualité des services rendus aux habitants et d'éclairer les décisions des élus. Elle constitue également un levier pour le marketing territorial, en permettant d'analyser l'attractivité résidentielle, de mesurer l'impact économique de nouveaux arrivants ou d'identifier les leviers de développement local. Bien exploitée, l'information issue de la data devient un outil d'aide à la décision et un support de transparence démocratique.
Définition technique de la data
D'un point de vue technique, une unité d'information élémentaire qui peut être collectée, stockée, transformée, analysée et réutilisée. La data ne constitue donc pas seulement une matière brute : elle s'inscrit dans un cycle de vie, allant de la production ou de la collecte jusqu'à la suppression, en passant par le traitement, la documentation, le partage et la gouvernance.
Données structurées, semi-structurées et non structurées
On distingue généralement plusieurs grandes catégories de données selon leur niveau d'organisation. Les données structurées sont organisées en tables, champs et formats homogènes, typiquement dans des bases de données relationnelles (données financières, registres d'état civil, inventaires). Les données semi-structurées conservent une certaine logique de balisage ou d'organisation, comme les fichiers XML ou JSON. Les données non structurées, quant à elles, regroupent les documents, images, vidéos ou textes libres.
Dans un système d'information, la donnée n'a de sens que si elle est contextualisée, documentée et reliée à une finalité. C'est pourquoi les organisations ont besoin de métadonnées (qui décrivent les données), de modèles de données, de schémas, de catalogues et de règles de gestion pour rendre leurs informations réellement exploitables et partageables entre services.
Du data lake aux données publiques
Pour gérer des volumes massifs de données hétérogènes, les organisations peuvent s'appuyer sur un data lake, c'est-à-dire un espace de stockage numérique conçu pour accueillir des données structurées ou non structurées dans leur format d'origine, sans transformation préalable. Contrairement aux entrepôts de données traditionnels, le data lake conserve les informations brutes et permet de les exploiter ultérieurement selon les besoins d'analyse ou de pilotage de l'action publique.
Dans le secteur public, une part importante de la data relève des données publiques, c'est-à-dire des informations produites ou reçues par les collectivités dans le cadre de leurs missions de service public. Depuis la loi pour une République numérique (2016), les collectivités de plus de 3 500 habitants et 50 agents sont tenues de publier ces données en open data, afin de renforcer la transparence, faciliter la participation citoyenne et stimuler la création de nouveaux services locaux.
Définition juridique et réglementaire de la data
Le cadre juridique et réglementaire de la data s'est progressivement structuré en France et en Europe pour encadrer la collecte, le traitement, la conservation et le partage des données publiques et personnelles. Pour les collectivités territoriales, ce cadre impose des obligations précises qui visent à protéger les droits des personnes, garantir la transparence de l'action publique et préserver la souveraineté numérique du territoire.
RGPD et protection des données personnelles
Lorsque la data permet d'identifier directement ou indirectement une personne physique, elle relève du champ des données personnelles et doit être traitée dans le respect du Règlement Général sur la Protection des Données (RGPD). Ce texte européen impose aux collectivités de définir une finalité précise pour chaque traitement, de limiter la collecte aux données strictement nécessaires, de maîtriser la durée de conservation et de garantir les droits des personnes : droit d'accès, de rectification, d'opposition et de portabilité.
Les collectivités doivent désigner un Délégué à la Protection des Données (DPO), mettre en place un registre des traitements et, dans certains cas sensibles, réaliser une analyse d'impact. La CNIL accompagne les collectivités dans leur mise en conformité. La loi pour une République numérique (2016) renforce ces obligations en imposant aux collectivités de plus de 3 500 habitants et 50 agents de publier leurs données publiques en open data sur des plateformes comme data.gouv.fr, à l'exception des données personnelles, sensibles ou couvertes par le secret.
Souveraineté numérique et gouvernance des données territoriales
Au-delà de la protection des personnes, les collectivités doivent maîtriser leur patrimoine de données pour garantir la souveraineté numérique de leur territoire. Cet enjeu recouvre plusieurs dimensions : savoir quelles données elles possèdent, d'où elles viennent, qui les utilise et dans quel cadre, choisir des solutions d'hébergement localisées en France ou en Europe, favoriser l'interopérabilité entre systèmes et mutualiser les infrastructures.
Dans un contexte de développement rapide de l'intelligence artificielle et du machine learning, la gouvernance des données devient un prérequis indispensable : sans données bien structurées et accessibles, les algorithmes ne peuvent produire des résultats fiables. Les algorithmes de machine learning nécessitent des données de qualité pour entraîner les modèles et améliorer leur précision. Des acteurs comme Open Data France accompagnent les collectivités dans la mise en place de leur stratégie data, en proposant conseils, formations et partages de bonnes pratiques.
| Texte | Obligation | Collectivités concernées |
|---|---|---|
| RGPD (2018) | Protection des données personnelles, désignation d'un DPO, registre des traitements | Toutes les collectivités |
| Loi République numérique (2016) | Publication des données publiques en open data | Collectivités de plus de 3 500 habitants et 50 agents |
| Directive INSPIRE (2007) | Diffusion et interopérabilité des données géographiques environnementales | Autorités publiques détenant des données géographiques |
Cas d'usage de la data dans les collectivités
Dans une collectivité territoriale, la data se mobilise concrètement pour piloter les mobilités, suivre les consommations d'énergie, optimiser la gestion des bâtiments, documenter les usages d'un service ou suivre la fréquentation touristique. Elle alimente des tableaux de bord, des hyperviseurs ou des observatoires qui transforment l'information brute en outils d'aide à la décision. Dans les projets d'intelligence artificielle, la data joue un rôle fondamental : les algorithmes de machine learning nécessitent des données de qualité pour entraîner les modèles et améliorer leur précision. C'est pourquoi la data science et la gouvernance des données constituent un prérequis indispensable à toute démarche d'innovation fondée sur l'IA.
Open data et portails comme data.gouv
Dans les démarches de transparence, la data est mobilisée à travers l'open data, qui consiste à publier des jeux de données sur des plateformes ouvertes afin d'en favoriser l'accès, la réutilisation et la création de nouveaux services. La plateforme nationale data.gouv.fr, développée par la Direction interministérielle du numérique (DINUM), centralise et structure les données ouvertes en France. Elle permet aux collectivités de publier leurs jeux de données sous licence ouverte, comme la Licence Ouverte Etalab 2.0. En 2025, la France a obtenu un score de 100 % à l'Open Data Maturity Index, confirmant sa première place pour la cinquième année consécutive.
Au-delà de la plateforme nationale, les collectivités peuvent aussi s'appuyer sur des portails régionaux ou départementaux. L'association Open Data France accompagne les acteurs publics territoriaux dans le lancement de leur projet d'ouverture des données, en proposant des conseils stratégiques, des formations et des partages de bonnes pratiques.
Retour d'expérience : Porto-Vecchio et la plateforme LiÀ
Un exemple concret de stratégie data réussie est celui de Porto-Vecchio (2A) avec le projet LiÀ, une plateforme data au service des politiques publiques. Le projet répond à la problématique d'un afflux touristique massif en haute saison, avec une population multipliée par dix. La plateforme centralise les données collectées via des capteurs (circulation routière, gestion des déchets, consommations d'énergie et d'eau) afin de mesurer la capacité de charge du territoire et d'ajuster le dimensionnement des infrastructures. Le projet LiÀ se définit d'ailleurs plus comme un « territoire intelligent » que comme un simple « territoire connecté », car l'objectif est bien de faire de la donnée un outil d'aide à la décision politique.