Que signifie « token » en français ?

Le terme token se traduit par « jeton » en français. Ce mot est utilisé dans plusieurs contextes : en intelligence artificielle, il désigne une unité de texte traitée par un modèle de langage ; dans le domaine des paiements, il représente un identifiant unique qui remplace les données sensibles d'une carte bancaire ; en blockchain, il correspond à un actif numérique stocké dans un portefeuille numérique. Selon le domaine, le jeton peut donc servir à découper du texte, sécuriser une transaction ou représenter un droit d'accès.

Un token est-il la même chose qu'un mot ?

Non. Un token peut être un mot entier, une partie de mot, un espace, un signe de ponctuation ou une combinaison de caractères. C'est précisément pour cela qu'un texte peut contenir plus de tokens que de mots.

Tokenisation ou tokenization : quelle est la bonne orthographe ?

Les deux orthographes existent et sont correctes. « Tokenisation » est la forme francisée la plus courante et recommandée en français. Dans les documents techniques ou institutionnels français, il est préférable d'utiliser « tokenisation » pour respecter les conventions de la langue.

La tokenisation en IA est-elle la même chose que la tokenisation en cybersécurité ?

Non. En intelligence artificielle, la tokenisation concerne le découpage du texte en unités de traitement pour permettre à un modèle de langage de comprendre et générer du contenu. En cybersécurité, notamment dans les systèmes de paiement, la tokenisation désigne le remplacement de données sensibles par un jeton non sensible afin de limiter le risque de violation des informations bancaires et de renforcer la sécurité des transactions. Malgré leur nom commun, ces deux approches répondent à des enjeux distincts et utilisent des mécanismes différents.

Tokenisation

Qu'est-ce que la tokenisation ?

Dans le contexte de l'intelligence artificielle générative, la tokenisation désigne l'opération qui consiste à découper un texte en unités plus petites appelées "tokens" (ou jetons) avant qu'il soit traité par un modèle de langage. Ces jetons permettent au modèle de traiter le langage en transformant les mots, signes de ponctuation ou espaces en unités manipulables mathématiquement.

Définition technique : comment fonctionne la tokenisation?

La tokenisation est la première étape du traitement d'un texte par un grand modèle de langage. Avant toute analyse ou génération, le texte saisi est converti en tokens, puis chaque token est associé à un identifiant numérique que le modèle peut traiter.

Cette technique de prétraitement repose sur différents algorithmes. Il existe plusieurs grandes méthodes de tokenisation :

par mot, lorsque le texte est découpé mot par mot
par caractère, lorsque chaque caractère est isolé
par sous-mots, lorsque les mots sont découpés en fragments plus petits, ce qui est aujourd'hui l'approche la plus fréquente pour les LLM

Pour illustrer concrètement le processus de tokenisation, prenons l'exemple d'une phrase simple : « La collectivité a déployé un chatbot ». Selon l'algorithme utilisé (comme le Byte-Pair Encoding employé par OpenAI et Mistral), cette phrase peut être découpée en tokens comme suit : ["La", " collectivité", " a", " déployé", " un", " chat", "bot"], soit 7 tokens pour 6 mots.

Ce découpage varie selon les modèles et les langages. Un même mot peut être découpé différemment selon son contexte, la langue utilisée ou le tokenizer associé au modèle. C'est pourquoi, une phrase peut représenter davantage de tokens que de mots.

La tokenisation a également une dimension très concrète dans les usages quotidiens de l'IA générative : les modèles possèdent une fenêtre de contexte exprimée en tokens, et non en mots. Cela signifie que la longueur maximale d'un prompt et d'une réponse dépend directement du nombre de tokens consommés.

Les autres sens de la tokenisation : paiements, actifs et données

Tokenisation des paiements et sécurité informatique

Dans le domaine des paiements, la tokenisation consiste à remplacer un numéro de carte bancaire par un jeton numérique non sensible afin de sécuriser les transactions en ligne et sans contact. Lorsqu'un client enregistre sa carte sur un site de commerçant en ligne ou dans un portefeuille numérique, les informations sensibles ne sont pas conservées telles quelles : elles sont remplacées par un identifiant unique, le token, qui ne peut être utilisé que pour un marchand spécifique.

En France, les banques et les acteurs du paiement ont généralisé cette pratique. Les transactions Card on File (paiements récurrents ou en un clic) doivent désormais être tokenisées selon les réglementations des réseaux internationaux.

Tokenisation d'actifs et finance

Dans le secteur financier, la tokenisation consiste à transformer un bien réel (immobilier, œuvre d'art, obligation) en jetons numériques échangeables sur une blockchain. Chaque token représente une fraction de la valeur de l'actif ce qui permet de fractionner la propriété, d'accélérer les transactions et de réduire les intermédiaires.

La France s'est positionnée sur ce sujet via un groupe stratégique lancé en mars 2026 par l'Autorité des marchés financiers, la Banque de France et le Trésor. L'objectif : faciliter l'adoption de la tokenisation dans le financement de l'économie française, notamment pour les instruments financiers, les dépôts tokenisés et les infrastructures blockchain. À terme, cette logique pourrait concerner la gestion patrimoniale publique des collectivités, par exemple pour la valorisation d'actifs immobiliers ou la gestion de titres.

Domaine	Principe	Exemple concret
IA / Traitement du langage	Découper un texte en unités (tokens) pour qu'un modèle puisse le traiter	Un prompt de 10 mots génère environ 15 tokens
Paiements	Remplacer un numéro de carte par un jeton sécurisé	Paiement sans contact ou abonnement en ligne tokenisé
Finance / Blockchain	Transformer un actif réel en jetons numériques échangeables	Fraction d'un bien immobilier représentée par des tokens sur blockchain

Enjeux et impacts de la tokenisation pour les collectivités

Le premier enjeu de la tokenisation est la gestion du contexte. Plus un texte est long (et consomme de jetons), plus il réduit rapidement la fenêtre de contexte disponible, ce qui limite la quantité d'information que le modèle peut prendre en compte dans une seule interaction. Cette contrainte technique influe directement sur la capacité d'un assistant à traiter un document métier ou une base documentaire volumineuse.

Le deuxième enjeu est économique et technique. Les fournisseurs de LLM facturent à l'usage en nombre de tokens (entrée et sortie). Le comptage des jetons sert donc à estimer les coûts, à maîtriser les performances et à prétraiter correctement les contenus avant envoi vers un modèle. Dans une application conversationnelle ou documentaire déployée en collectivité, cela influence directement le temps de réponse, la volumétrie traitable et le budget de fonctionnement.

Le troisième enjeu est linguistique et fonctionnel. Une mauvaise compréhension de la tokenisation peut conduire à mal calibrer un prompt, tronquer des contenus, mal découper des documents ou sous-estimer la place prise par certaines langues, certaines notations ou certains formats. Ce risque s'accroît dans les projets publics où les normes sectorielles (urbanisme, marchés publics, délibérations) génèrent des vocabulaires spécifiques.

Exemples de cas d'usage de la tokenisation

Dans un chatbot ou un assistant conversationnel, chaque prompt utilisateur est tokenisé avant traitement. La réponse générée l'est aussi sous forme de tokens avant d'être réaffichée sous forme de texte lisible. Cette étape influence directement le temps de réponse et le coût de chaque interaction. Concrètement, certaines collectivités ont déjà intégré ces mécanismes dans leurs services. À Suresnes,par exemple, le guichet unique multicanal intègre un chatbot et un voicebot qui traitent les demandes en langage naturel : la tokenisation permet au système de comprendre les requêtes des citoyens et de générer des réponses adaptées en optimisant les coûts.

Dans les usages de RAG ou de recherche documentaire assistée, la tokenisation intervient à plusieurs niveaux : découpage des documents, préparation des requêtes, gestion de la taille du contexte injecté dans le modèle et arbitrage sur ce qu'il est possible d'inclure dans une réponse. La Région Île-de-France exploite ainsi un assistant technique basé sur le RAG pour sa documentation SI, tandis que la Métropole Rouen Normandie l'utilise pour la recherche d'informations dans les délibérations publiques et la génération de synthèses. Dans ces deux cas, la tokenisation conditionne la capacité du système à produire une réponse ancrée sur les bons documents.

Tokenisation

Qu'est-ce que la tokenisation ?

Définition technique : comment fonctionne la tokenisation?

Les autres sens de la tokenisation : paiements, actifs et données

Tokenisation des paiements et sécurité informatique

Tokenisation d'actifs et finance

Enjeux et impacts de la tokenisation pour les collectivités

Exemples de cas d'usage de la tokenisation

Questions fréquemment associées à Tokenisation

Chatbot

Agent IA

Prompt

IA générative

LLM

Utiliser l’IA pour renforcer sa relation avec les citoyens

Prendre des précautions pour encadrer l’arrivée de l’IA générative en fonction de la taille de la collectivité (chartes, bonnes pratiques)

Le Département des Côtes-d’Armor (22) formalise une charte d’usage de l’IA générative pour 3 200 agents

Île-de-France : l’IA au service de l’administration régionale

Vous souhaitez en savoir plus sur le numérique et l'IA ?

Qu'est-ce que la tokenisation ?

Définition technique : comment fonctionne la tokenisation?

Les autres sens de la tokenisation : paiements, actifs et données

Tokenisation des paiements et sécurité informatique

Tokenisation d'actifs et finance

Enjeux et impacts de la tokenisation pour les collectivités

Exemples de cas d'usage de la tokenisation

Questions fréquemment associées à Tokenisation

Les termes en lien avec Tokenisation

Chatbot

Agent IA

Prompt

IA générative

LLM

Les propositions en lien avec ce terme

Utiliser l’IA pour renforcer sa relation avec les citoyens

Prendre des précautions pour encadrer l’arrivée de l’IA générative en fonction de la taille de la collectivité (chartes, bonnes pratiques)

Tous les retours d'expérience

Le Département des Côtes-d’Armor (22) formalise une charte d’usage de l’IA générative pour 3 200 agents

Île-de-France : l’IA au service de l’administration régionale

Vous souhaitez en savoir plus sur le numérique et l'IA ?