Big data
Le big data, ou « données massives », désigne l'ensemble des données numériques produites en très grande quantité par les usages du numérique : services en ligne, capteurs, applications mobiles, réseaux sociaux, internet des objets, systèmes d'information, plateformes administratives ou encore équipements urbains. L'expression « big data » s'est popularisée au début des années 2000, avec l'explosion d'internet et la multiplication des sources de données numériques.
Qu'est-ce que le big data ?
Le big data, ou « données massives », désigne l'ensemble des données numériques produites en très grande quantité par les usages du numérique : services en ligne, capteurs, applications mobiles, réseaux sociaux, internet des objets, systèmes d'information, plateformes administratives ou encore équipements urbains. L'expression « big data » s'est popularisée au début des années 2000, avec l'explosion d'internet et la multiplication des sources de données numériques.
Ces trois dimensions, souvent appelées les « 3V » du big data, permettent de mieux comprendre ce phénomène. Le volume désigne la quantité gigantesque de données collectées, la vélocité correspond à la vitesse d'arrivée et de traitement des données, parfois en temps réel, et la variété renvoie à la diversité des formats : tableaux, textes, images, vidéos, données géographiques, historiques d'usage, signaux de capteurs ou documents administratifs.
Le big data concerne aussi bien les entreprises que les collectivités territoriales. Pour une collectivité, il ne se limite pas à une question technique. Il correspond à la capacité de collecter, croiser et analyser des données nombreuses et diverses pour mieux comprendre un territoire : déplacements, consommation énergétique, qualité de l'air, fréquentation des équipements publics, budget, demandes des usagers, occupation de l'espace public, réseaux d'eau, déchets ou éclairage. Entreprises et collectivités ont aujourd'hui besoin de technologies adaptées pour transformer ces volumes massifs en informations exploitables et améliorer leurs décisions stratégiques.
Définition technique : analyse de données, technologies et visualisation
Sur le plan technique, le big data repose sur des infrastructures capables de collecter, stocker, traiter, croiser et analyser de grands volumes de données hétérogènes, mobilisant une puissance de calcul importante. Ces données peuvent provenir de bases métiers, d'applications administratives, de capteurs IoT, de systèmes d'information géographique, d'API, de plateformes open data ou encore de fichiers produits par différents services de la collectivité. L'analyse de données permet d'extraire des tendances, d'identifier des indicateurs clés et d'éclairer la prise de décision à partir de ces volumes massifs.
Les 5V du big data
Le big data se caractérise par cinq dimensions fondamentales, souvent résumées sous l'appellation des les 5V : le volume désigne les quantités massives de données produites, pouvant atteindre des téraoctets ou des zettaoctets ; la vélocité correspond à la vitesse de génération et de traitement des données, parfois en temps réel ; la variété renvoie à la diversité des formats ; la véracité concerne la qualité et la fiabilité des données, condition essentielle pour produire des analyses fiables ; enfin, la valeur représente la capacité à transformer ces données brutes en informations exploitables pour la décision publique.
Dans une collectivité, trois types de données coexistent : une donnée structurée est organisée sous forme de table (fichier budgétaire, base d'état civil), une donnée semi-structurée suit une logique de balisage (JSON, XML), et une donnée non structurée peut être un document texte, une image ou une vidéo.
| Dimension | Description | Exemple concret |
|---|---|---|
| Volume | Quantité massive de données (téraoctets, zettaoctets) | Données de capteurs urbains collectées en continu |
| Vélocité | Vitesse de génération et de traitement | Flux temps réel de fréquentation des transports |
| Variété | Diversité des formats et types de données | Tableaux budgétaires, images, vidéos, signalements |
| Véracité | Qualité et fiabilité des données | Validation des données de consommation énergétique |
| Valeur | Capacité à extraire des insights exploitables | Identification de zones prioritaires pour l'éclairage |
Architecture big data et outils d'analyse : machine learning
L'architecture big data s'appuie sur des entrepôts de données, des plateformes d'analyse, des outils de visualisation et parfois des datalakes, espaces de stockage conçus pour accueillir des volumes massifs de données dans leur format d'origine. Ces infrastructures reposent sur des technologies comme Apache Hadoop, framework historique de traitement distribué permettant de répartir les calculs sur plusieurs machines, ou sur des solutions cloud telles qu'AWS S3, Azure Data Lake ou Google BigQuery.
Les données sont ensuite traitées par des logiciels statistiques, des algorithmes de data science ou des modèles de machine learning. Ces derniers permettent de construire des analyses prédictives, d'anticiper des évolutions futures et d'optimiser les décisions publiques. Les outils d'analyse transforment les résultats en visualisations compréhensibles par des élus, agents, partenaires ou citoyens, sous forme de cartes, graphiques ou tableaux de bord interactifs.
Définition juridique et réglementaire du big data
Le premier enjeu du big data pour les collectivités est celui de la protection des données personnelles. Le RGPD, règlement de l'Union européenne en vigueur depuis mai 2018, s'applique dès lors qu'une collectivité collecte, conserve, analyse ou croise des données se rapportant à des personnes physiques identifiées ou identifiables. La CNIL rappelle que le RGPD responsabilise les organismes publics et privés, y compris les entreprises partenaires qui interviennent comme sous-traitants des collectivités, dans le traitement des données personnelles. Le texte européen fixe notamment des principes relatifs à la licéité, à la transparence, à la limitation des finalités et à la minimisation des données.
Dans une démarche big data, le risque juridique apparaît souvent au moment du croisement des données. Une personne peut être identifiable à partir du croisement d'un ensemble de données, même si son nom n'est pas directement mentionné. Service-Public rappelle qu'une personne peut être identifiable à partir du croisement d'un ensemble de données, même si son nom n'est pas directement mentionné. Cette situation concerne aussi bien les collectivités que les entreprises privées qui exploitent des données massives.
Le big data doit donc respecter les principes fondamentaux du RGPD : définir une finalité claire, ne collecter que les données nécessaires, limiter les durées de conservation (y compris pour les données archivées sur le long terme), sécuriser les accès, documenter les traitements et garantir les droits des personnes. Ces principes sont particulièrement importants pour les collectivités, qui manipulent des données liées aux familles, aux agents, aux usagers, aux bénéficiaires d'aides, aux déplacements ou aux usages de services publics.
L'open data constitue un autre cadre important. Les données publiques peuvent être ouvertes afin de renforcer la transparence, améliorer l'action publique et permettre la création de nouveaux services. Le gouvernement français a posé des principes clairs en la matière, notamment via la loi de 2015 relative à la gratuité et aux modalités de réutilisation des informations du secteur public. La plateforme data.gouv.fr se présente comme la plateforme ouverte des données publiques françaises, destinée à utiliser, partager et améliorer les données publiques. Toutefois, toutes les données massives ne sont pas publiables. Les données personnelles, sensibles, stratégiques ou couvertes par des obligations de confidentialité doivent être protégées.
L'enjeu de gouvernance et de gestion des risques est central. Sans règles de qualité, de documentation, de sécurité et de responsabilité, un projet big data peut produire des résultats fragiles ou difficiles à exploiter.
Big data et IA au service de la transition écologique
Le big data constitue un levier essentiel pour piloter la transition environnementale des territoires. Le Baromètre Data Publica 2024 indique que 97 % des collectivités considèrent que la maîtrise et l'exploitation des données sont nécessaires à cette transition. Les données de consommation énergétique, d'éclairage public, de qualité de l'air, de mobilité, d'eau ou de déchets permettent d'identifier les zones prioritaires, de suivre les économies réalisées et d'adapter les politiques publiques.
L'intelligence artificielle associée au big data ouvre des perspectives nouvelles. Des modèles prédictifs peuvent anticiper les besoins énergétiques, optimiser les tournées de collecte des déchets ou détecter les fuites sur les réseaux d'eau. Le rapport du Sénat sur l'IA et les collectivités cite l'optimisation de la ressource en eau à Saint-Savin et dans la Communauté d'agglomération Porte de l'Isère, ainsi que la lutte contre le gaspillage alimentaire dans les cantines à Nantes Métropole. La maintenance prédictive permet de planifier les interventions avant les pannes, réduisant ainsi les coûts d'exploitation.
Le big data renforce aussi la transparence financière. Les données budgétaires peuvent être analysées pour mieux comprendre les équilibres financiers ou l'investissement. Cette ouverture permet à des citoyens, chercheurs ou entreprises locales de produire des analyses complémentaires, favorisant les partenariats publics-privés.
Big data et informatique au service de la mobilité et de l'eau
L'utilisation du big data transforme la gestion quotidienne des services publics locaux. Dans le domaine de la mobilité, les données massives aident à mieux comprendre les déplacements : fréquentation des transports, flux cyclables, stationnement, itinéraires ou horaires de saturation. Le rapport du Sénat cite l'exemple de Labège, dans la communauté d'agglomération du Sicoval, qui a amélioré la connaissance des places de stationnement grâce aux données. Ces analyses facilitent la prise de décisions pour adapter les horaires de transport ou prioriser des aménagements cyclables en fonction des besoins réels des usagers.
Pour la gestion de l'eau, des déchets et des réseaux techniques, les données issues de capteurs, de tournées ou de signalements permettent de repérer des anomalies et d'assurer l'optimisation logistique des interventions. L'enjeu est de relier les données techniques aux réalités du terrain, en mobilisant des infrastructures informatiques adaptées au traitement de volumes massifs.
Le big data s'étend également à la détection de fraude dans le contrôle des aides sociales ou des prestations publiques. Le croisement de données permet d'identifier des incohérences et d'orienter les vérifications de manière ciblée, tout en respectant les principes du RGPD.
Enfin, les demandes adressées aux collectivités constituent une source précieuse pour améliorer le service public. Analysées de manière agrégée, elles aident à identifier les démarches les plus fréquentes ou les délais de traitement, répondant ainsi mieux aux attentes des citoyens et des entreprises du territoire.