LLM
Un modèle de langage de grande taille, ou LLM (pour Large Language Model), est un système informatique conçu pour générer du texte « humain »
Cette définition couvre également les termes :
- large language model
- modèle de langage de grande taille
Qu'est-ce qu'un LLM (large language model)?
Un modèle de langage de grande taille, ou LLM (pour Large Language Model), est un système informatique conçu pour générer du texte « humain ». À partir d’une simple consigne, il est capable de produire une réponse structurée, de reformuler un contenu ou de synthétiser un document. L’un des LLM les plus connus à ce jour est Chat GPT. Un LLM ne réfléchit pas au sens des mots, il anticipe, par calcul statistique, les enchaînements de termes les plus probables en s’appuyant sur un très grand volume de textes analysés lors de sa phase d’entraînement.
L'utilisation d’un LLM peut introduire des erreurs, produire des formulations approximatives ou reproduire des biais présents dans ses données d’entraînement. Son intégration exige donc d’être encadrée par un humain pour éviter toute dérive.
Définition technique : comment fonctionnent les grands modèles de langage?
Un modèle de langage de grande taille (LLM) repose sur une architecture algorithmique fondée sur les réseaux de neurones profonds. Ces modèles sont entraînés sur des volumes massifs de textes. Cet entraînement vise à permettre au LLM de prédire le mot suivant, à partir d’un contexte donné. Le résultat est un système capable de produire du texte fluide à partir d'une consigne rédigée par un humain. Toutefois, cette capacité repose sur des associations statistiques entre les mots, et non sur une compréhension réelle du sens. Le modèle ne "sait" pas ce qu’il écrit : il recompose, selon des probabilités, ce qu’il a observé dans ses données d’entraînement. Le texte généré par un LLM et les idées qui en sorte sont donc complètement dépendantes des données sur lesquelles celui-ci a été entraîné. Cela entraîne un risque important si cette base de données n’est plus à jour sur un sujet, si elle contient des erreurs, ou si elle est biaisée sur certains sujets.
En environnement institutionnel, l’usage d’un tel outil impose donc des exigences techniques précises : traçabilité des réponses, sécurisation des flux de données, alignement éthique, maîtrise des biais, sécurisation des données personnelles.
Impacts juridiques et réglementaires liés aux Large language model
L’usage des LLM par les collectivités territoriales soulève plusieurs points de vigilance. Si la base de données que la collectivité fournit au modèle de langage implique des informations à caractère personnel, alors, le traitement de ces données doit strictement respecter le RGPD et la loi Informatique et Libertés. Le recours à un modèle de langage hébergé à l’extérieur de la collectivité peut entraîner des transferts de données hors Union européenne, soumis à des garanties spécifiques (clauses contractuelles types, décisions d’adéquation). Par ailleurs, la responsabilité administrative peut être engagée si un contenu généré par LLM induit en erreur un usager, produit une décision erronée ou contrevient au principe d’égalité devant le service public. Enfin, la transparence algorithmique devient un impératif. Le citoyen doit pouvoir comprendre si une réponse lui a été générée par une machine, et selon quels critères.