Data science
La data science regroupe l’ensemble des méthodes qui permettent d’extraire des connaissances utiles à partir de volumes importants de données.
Cette définition couvre également les termes :
- Data scientist
- Science des données
La data science regroupe l’ensemble des méthodes qui permettent d’extraire des connaissances utiles à partir de volumes importants de données. Elle repose sur la combinaison de plusieurs disciplines : statistiques, informatique, traitement automatique du langage, apprentissage automatique (machine learning), et visualisation.
Dans le contexte des collectivités territoriales, la data science sert à interpréter les données produites au quotidien : circulation, consommation énergétique, budgets, retours usagers, fréquentation des équipements… Elle ne se limite pas à produire des tableaux de bord : elle permet d’anticiper des comportements, d’identifier des anomalies, de simuler des scénarios, ou d’évaluer finement l’impact d’une politique publique.
Contrairement au simple traitement de données ou au reporting, la data science vise à révéler des relations cachées et à produire des modèles prédictifs. Elle s’inscrit donc dans une logique de pilotage plus stratégique et s’emploie de plus en plus dans les services publics locaux.
Comment fonctionne la data science ?
La data science suit une démarche structurée pour extraire de l’information à partir de données, souvent complexes ou massives.
Tout commence par la collecte de données issues de différentes sources : capteurs, fichiers, bases de données, ou documents textuels. Ces données brutes sont ensuite préparées. Cela implique de corriger les erreurs, harmoniser les formats et rendre l’ensemble cohérent pour pouvoir l’analyser.
Vient ensuite une phase d’exploration statistique. On cherche à comprendre la structure des données, à repérer des régularités ou des anomalies, à établir des relations entre différentes variables. Ces analyses descriptives peuvent ensuite déboucher sur la construction de modèles mathématiques. Certains sont conçus pour prédire l’évolution d’un phénomène ; d’autres pour classer automatiquement des éléments ou identifier des regroupements.
Cette modélisation, souvent mise en œuvre par des data scientists, repose sur des techniques d’apprentissage automatique, où des algorithmes “apprennent” à partir de données existantes pour généraliser à de nouvelles situations. Une fois les résultats obtenus, ils sont testés, interprétés, et souvent visualisés sous forme de graphiques, de cartes ou de tableaux interactifs.
Quel est le cadre juridique autour de la data science ?
La data science repose sur l’analyse de jeux de données, souvent riches, parfois sensibles. Dès qu’elle traite des données à caractère personnel, elle entre dans le champ d’application du Règlement général sur la protection des données (RGPD), en vigueur dans toute l’Union européenne.
Concrètement, les collectivités doivent respecter plusieurs principes :
-Définir une finalité explicite : tout traitement de données doit répondre à un objectif légitime et précis, lié à une mission de service public (ex. : adapter l’offre de transport, détecter des fraudes, mieux cibler les aides).
-Limiter les données utilisées : seules les informations strictement nécessaires à l’analyse doivent être exploitées. On parle de minimisation des données.
-Informer les personnes concernées : usagers et habitants doivent être informés clairement de l’existence des traitements, de leur finalité et de leurs droits (accès, opposition, rectification).
-Encadrer les traitements automatisés : si un algorithme participe à la prise de décision (par exemple pour accorder une aide ou lancer un contrôle), des garanties spécifiques doivent être mises en place pour éviter les effets discriminants.
-Évaluer les risques : certains projets peuvent nécessiter une analyse d’impact relative à la protection des données (AIPD), en particulier lorsqu’ils croisent des données sensibles ou s’appuient sur des modèles prédictifs.
La CNIL (Commission nationale de l’informatique et des libertés) accompagne les collectivités dans l’encadrement juridique de leurs démarches data, en publiant des lignes directrices et en proposant un accompagnement personnalisé.