GOUVERNANCE ET SOCLES TECHNOLOGIQUES

Comment préparer les données d'un territoire avant de lancer un projet IA ? 

Cet article a été rédigé par

Entretien avec Fabien Cauchi, Président fondateur de Metapolis, société de conseil et de services spécialisée dans l’accompagnement à la transformation numérique des acteurs publics. Avant d’aborder le sujet de la préparation des données de territoire, pouvez-vous définir ce qu’est la donnée territoriale ? La donnée territoriale peut être définie dans un double rapport de production et […]

Entretien avec Fabien Cauchi, Président fondateur de Metapolis, société de conseil et de services spécialisée dans l’accompagnement à la transformation numérique des acteurs publics.

Avant d’aborder le sujet de la préparation des données de territoire, pouvez-vous définir ce qu’est la donnée territoriale ?

La donnée territoriale peut être définie dans un double rapport de production et utilisation, comme une donnée qui à la fois est collectée sur le territoire et utile à l’élaboration et au suivi des politiques publiques. Elle peut être issue de multiples sources. On distingue les données intrinsèques à l’administration territoriale et celles issues de tous les autres acteurs du territoire, notamment opérateurs de services publics. Si on prend l’exemple de la métropole de Bordeaux, celle-ci gère non seulement les données de 28 communes (données des services et de l’administration), mais aussi celles provenant d’établissements publics ou privés, comme Keolis, les opérateurs d’eau, d’énergie et de déchets, les institutions régionales et nationales (région, département …) ou encore les acteurs économiques et académiques comme le CHU, les universités, les pôles de compétitivité, les associations…. Pour exploiter au mieux toute cette variété de données, Bordeaux Métropole a mis en place une alliance territoriale afin d’établir des règles de partage et de diffusion des données sur son territoire.

Comment cette donnée est-elle produite et collectée ?

Comme évoqué précédemment, les données de territoire recouvrent à la fois les données produites par les activités de la collectivité et celles issues des organismes tiers.

Les données de la collectivité proviennent de multiples sources :

  • La gestion des services aux usagers : services aux familles (crèches, écoles, centres de loisirs), gestion des déchets, gestion des équipements sportifs ou culturels, etc.
  • L’administration de la collectivité : SI, RH, finances, etc.
  • Les interactions des agents de la ville : mails, notes, formulaires, documents

Les données produites par des organismes tiers sont également nombreuses et variées. Pour être utilisées par les politiques publiques, ces données doivent être d’intérêt général, c’est-à-dire utiles à la production de services publics ou à des fins de projets collectifs. À titre d’exemple, des données de transports comme les horaires, le trafic ou l’accessibilité sont considérées comme des données de territoire d’intérêt général. Détenues par des opérateurs privés comme Keolis, la SNCF, les opérateurs télécom ou les sites d’information routière, ces informations permettent de créer une grande variété de services numériques, que ce soit pour les usagers (information en temps réel sur les transports en commun, planification des trajets, accessibilité) ou pour les collectivités (pilotage des mobilités (ajustement des fréquences des transports en commun, gestion du trafic, etc). Autre exemple : les données environnementales produites par des entreprises de gestion de l’eau, de qualité de l’air, ou d’organismes de recherche sur la biodiversité permettent d’améliorer la planification urbaine ou la gestion des ressources naturelles.

Les modes de production des données de territoire sont très variés : canaux de communication, logiciels métiers, capteurs, objets connectés, études, etc. Elles sont collectées via des plateformes publiques ou privées et des APIs et doivent être préparées pour être utilisées par des modèles d’IA. Il faut notamment s’assurer d’être en conformité avec différents règlements européens et nationaux en vigueur. Une loi comme le Règlement Général sur la Protection des Données Personnelles (RGPD) impose, par exemple, de recueillir le consentement des utilisateurs et d’anonymiser les informations personnelles.

Avant tout travail sur la donnée, il est impératif de définir les objectifs du projet afin d’identifier les jeux de données les plus appropriés au cas d’usage visé.

Quid de la qualité des données dans un projet d’IA ?

Les données brutes produites par les différents acteurs publics et privés sont souvent imparfaites, parfois erronées. Indispensable, leur nettoyage vise alors à corriger les erreurs, à éliminer les doublons et à les enrichir d’éléments nouveaux. Car il est bien rare qu’une donnée n’évolue pas dans le temps. Dans le cas d’un horaire de bus par exemple, une donnée théorique est fiable dès lors que l’information est bien référencée, mais elle peut devenir ponctuellement erronée en cas d’embouteillage. Grâce aux capteurs et aux remontées d’information en temps réel, cette donnée stable peut être enrichie de métadonnées et devient alors dynamique et utile à l’usager. Toutefois, mettre à jour les données est une démarche excessivement chronophage et qui nécessite la mise en place d’une gouvernance de la donnée performante. Pour qu’une information soit mise à jour, il faut en effet qu’elle soit rapidement transmise au bon interlocuteur.

Outre la qualité de la donnée, un projet d’IA, nécessite de transformer les données pour les rendre exploitables par l’algorithme d’apprentissage. Cela impose, par exemple, la transformation de données non structurées en formats lisibles, la fusion de sources de données variées ou la création de nouvelles variables pour enrichir les bases de données. Avant toute utilisation des données pour l’entraînement de l’IA, la vérification de leur qualité et de leur cohérence est indispensable.

Comment sont stockées et exploitées les données ?

Dans les années 2010, les capacités de stockage et de traitement étant perçues comme infinies, l’idée est née de stocker toutes les données collectées dans un énorme data lake. Le discours ambiant était alors : « Collectons tout, le tri sera fait après selon les besoins ». Mais à l’usage, ce big data territorial s’est avéré onéreux, compliqué à mettre en place et à administrer dans la durée. C’est pourquoi, dans les années 2020 des data hub ont commencé à émerger. L’objectif n’est plus de concentrer toutes les données en un seul et même endroit, mais de développer une plateforme interopérable permettant d’accéder aux données stockées chez les différents producteurs (collectivités, établissements publics et privés…) via des APIs. Cette démarche impose de bien référencer les données et de tracer leur évolution. Grâce à cette plateforme interopérable, les usagers consultent, téléchargent et utilisent les jeux de données ouverts des producteurs de données.

Toutefois, les acteurs publics doivent s’interroger sur les données à partager pour entrainer les IA. Pour éviter toute exploitation de données sensibles par les grands acteurs du numérique ou entreprises privées, les pouvoirs publics ont tout intérêt à développer les référentiels de données les plus protecteurs possibles afin de garantir les libertés individuelles. C’est d’ailleurs dans cet état d’esprit de vigilance de la protection des données qu’apparaissent actuellement les dataspaces, des plateformes permettant à plusieurs acteurs de partager, échanger, et utiliser des données de manière sécurisée et gouvernée. Grâce à ces infrastructures, ils mettent en commun leurs données selon des règles de gouvernance et de sécurité claires et communément définies. Les données sont cloisonnées, limitant l’accès aux informations inter-organisations. De telles infrastructures impulsées au niveau européen ont vu le jour ces dernières années suivant une logique sectorielle (santé, mobilité, agriculture, aérospatial…). Elles visent à renforcer l’open data et à générer de la valeur avec les données issues des entreprises et des opérateurs de services publics, dans un cadre de confiance.

Fort de toutes ces précautions, se lancer dans un projet d’IA en utilisant les données de territoire permet d’améliorer la prise de décision publique, de créer des services innovants, plus efficaces et inclusifs et de développer des analyses prédictives.