Tokenisation

Dans le contexte de l'intelligence artificielle générative, la tokenisation désigne l'opération qui consiste à découper un texte en unités plus petites appelées "tokens" (ou jetons) avant qu'il soit traité par un modèle de langage.

Qu'est-ce que la tokenisation ?

Dans le contexte de l'intelligence artificielle générative, la tokenisation désigne l'opération qui consiste à découper un texte en unités plus petites appelées "tokens" (ou jetons) avant qu'il soit traité par un modèle de langage. Ces jetons permettent au modèle de traiter le langage en transformant les mots, signes de ponctuation ou espaces en unités manipulables mathématiquement.

Définition technique : comment fonctionne la tokenisation?

La tokenisation est la première étape du traitement d'un texte par un grand modèle de langage. Avant toute analyse ou génération, le texte saisi est converti en tokens, puis chaque token est associé à un identifiant numérique que le modèle peut traiter.

Cette technique de prétraitement repose sur différents algorithmes. Il existe plusieurs grandes méthodes de tokenisation :

  • par mot, lorsque le texte est découpé mot par mot
  • par caractère, lorsque chaque caractère est isolé
  • par sous-mots, lorsque les mots sont découpés en fragments plus petits, ce qui est aujourd'hui l'approche la plus fréquente pour les LLM

Pour illustrer concrètement le processus de tokenisation, prenons l'exemple d'une phrase simple : « La collectivité a déployé un chatbot ». Selon l'algorithme utilisé (comme le Byte-Pair Encoding employé par OpenAI et Mistral), cette phrase peut être découpée en tokens comme suit : ["La", " collectivité", " a", " déployé", " un", " chat", "bot"], soit 7 tokens pour 6 mots.

Ce découpage varie selon les modèles et les langages. Un même mot peut être découpé différemment selon son contexte, la langue utilisée ou le tokenizer associé au modèle. C'est pourquoi, une phrase peut représenter davantage de tokens que de mots.

La tokenisation a également une dimension très concrète dans les usages quotidiens de l'IA générative : les modèles possèdent une fenêtre de contexte exprimée en tokens, et non en mots. Cela signifie que la longueur maximale d'un prompt et d'une réponse dépend directement du nombre de tokens consommés.

Les autres sens de la tokenisation : paiements, actifs et données

Tokenisation des paiements et sécurité informatique

Dans le domaine des paiements, la tokenisation consiste à remplacer un numéro de carte bancaire par un jeton numérique non sensible afin de sécuriser les transactions en ligne et sans contact. Lorsqu'un client enregistre sa carte sur un site de commerçant en ligne ou dans un portefeuille numérique, les informations sensibles ne sont pas conservées telles quelles : elles sont remplacées par un identifiant unique, le token, qui ne peut être utilisé que pour un marchand spécifique.

En France, les banques et les acteurs du paiement ont généralisé cette pratique. Les transactions Card on File (paiements récurrents ou en un clic) doivent désormais être tokenisées selon les réglementations des réseaux internationaux.

Tokenisation d'actifs et finance

Dans le secteur financier, la tokenisation consiste à transformer un bien réel (immobilier, œuvre d'art, obligation) en jetons numériques échangeables sur une blockchain. Chaque token représente une fraction de la valeur de l'actif ce qui permet de fractionner la propriété, d'accélérer les transactions et de réduire les intermédiaires.

La France s'est positionnée sur ce sujet via un groupe stratégique lancé en mars 2026 par l'Autorité des marchés financiers, la Banque de France et le Trésor. L'objectif : faciliter l'adoption de la tokenisation dans le financement de l'économie française, notamment pour les instruments financiers, les dépôts tokenisés et les infrastructures blockchain. À terme, cette logique pourrait concerner la gestion patrimoniale publique des collectivités, par exemple pour la valorisation d'actifs immobiliers ou la gestion de titres.

Domaine Principe Exemple concret
IA / Traitement du langage Découper un texte en unités (tokens) pour qu'un modèle puisse le traiter Un prompt de 10 mots génère environ 15 tokens
Paiements Remplacer un numéro de carte par un jeton sécurisé Paiement sans contact ou abonnement en ligne tokenisé
Finance / Blockchain Transformer un actif réel en jetons numériques échangeables Fraction d'un bien immobilier représentée par des tokens sur blockchain

Enjeux et impacts de la tokenisation pour les collectivités

Le premier enjeu de la tokenisation est la gestion du contexte. Plus un texte est long (et consomme de jetons), plus il réduit rapidement la fenêtre de contexte disponible, ce qui limite la quantité d'information que le modèle peut prendre en compte dans une seule interaction. Cette contrainte technique influe directement sur la capacité d'un assistant à traiter un document métier ou une base documentaire volumineuse.

Le deuxième enjeu est économique et technique. Les fournisseurs de LLM facturent à l'usage en nombre de tokens (entrée et sortie). Le comptage des jetons sert donc à estimer les coûts, à maîtriser les performances et à prétraiter correctement les contenus avant envoi vers un modèle. Dans une application conversationnelle ou documentaire déployée en collectivité, cela influence directement le temps de réponse, la volumétrie traitable et le budget de fonctionnement.

Le troisième enjeu est linguistique et fonctionnel. Une mauvaise compréhension de la tokenisation peut conduire à mal calibrer un prompt, tronquer des contenus, mal découper des documents ou sous-estimer la place prise par certaines langues, certaines notations ou certains formats. Ce risque s'accroît dans les projets publics où les normes sectorielles (urbanisme, marchés publics, délibérations) génèrent des vocabulaires spécifiques.

Exemples de cas d'usage de la tokenisation

Dans un chatbot ou un assistant conversationnel, chaque prompt utilisateur est tokenisé avant traitement. La réponse générée l'est aussi sous forme de tokens avant d'être réaffichée sous forme de texte lisible. Cette étape influence directement le temps de réponse et le coût de chaque interaction. Concrètement, certaines collectivités ont déjà intégré ces mécanismes dans leurs services. À Suresnes,par exemple, le guichet unique multicanal intègre un chatbot et un voicebot qui traitent les demandes en langage naturel : la tokenisation permet au système de comprendre les requêtes des citoyens et de générer des réponses adaptées en optimisant les coûts.

Dans les usages de RAG ou de recherche documentaire assistée, la tokenisation intervient à plusieurs niveaux : découpage des documents, préparation des requêtes, gestion de la taille du contexte injecté dans le modèle et arbitrage sur ce qu'il est possible d'inclure dans une réponse. La Région Île-de-France exploite ainsi un assistant technique basé sur le RAG pour sa documentation SI, tandis que la Métropole Rouen Normandie l'utilise pour la recherche d'informations dans les délibérations publiques et la génération de synthèses. Dans ces deux cas, la tokenisation conditionne la capacité du système à produire une réponse ancrée sur les bons documents.

Questions fréquemment associées à Tokenisation

Vous souhaitez en savoir plus sur le numérique et l'IA ?

Découvrir le glossaire