Le français dans l’IA : 0,2 %. Le reste, c’est un choix.

Moins de 0,2 % des données d’entraînement des grands modèles sont en français.

C’est l’estimation portée par le projet LANGU:IA, initiative publique française visant à combler ce déficit. 320 millions de locuteurs. Des siècles de littérature, de science, de droit. Une présence numérique qui disparaît dans le bruit de fond anglophone.

Ce n’est pas un accident technique. C’est le résultat d’une accumulation de non-décisions.

Le problème n’est pas la langue, c’est l’infrastructure.

Les modèles apprennent ce qu’on leur donne.

Ce qu’on leur donne, c’est internet tel qu’il existe. Anglophone à plus de 55 %. Le français : moins de 3 %. Le wolof, le lingala, le créole haïtien : traces.

Résultat : un modèle reproduit les biais de cette répartition. Il comprend mieux. Il génère mieux. Il performe mieux en anglais. Et cela s’aggrave à chaque nouveau cycle d’entraînement.

Ce n’est pas une question de langue, c’est une question de monde.

Une langue absente des modèles, c’est une réalité absente des systèmes.

Pas seulement des mots. Une façon de dire le réel. De nommer ce qui compte. Les concepts juridiques, les relations sociales, les nuances du respect ou du conflit — tout ça ne se traduit pas. Ça se perd, ou ça se déforme.

Quand un modèle est entraîné majoritairement en anglais, il n’apprend pas seulement une langue. Il apprend une vision du monde. Une hiérarchie implicite des concepts. Une façon de poser les problèmes — et donc de les résoudre.

Les décisions prises par des outils d’IA — attribution de crédit, évaluation scolaire, triage médical, modération de contenu — sont entraînées sur ces données. Ces données ont une origine. Une géographie. Une langue.

Quand cette langue n’est pas la tienne, l’outil ne te comprend pas vraiment. Il t’approxime.

À petite échelle : une friction. À grande échelle : une exclusion structurelle.

Ce n’est pas un problème culturel. C’est un problème d’infrastructure de pouvoir.

La francophonie n’est pas un monolithe.

Erreur fréquente : traiter « le français » comme un bloc.

La francophonie, c’est 88 États. Paris, Dakar, Montréal, Kinshasa. Des registres, des dialectes, des langues co-existantes — créoles, wolof, bambara — absents des corpus d’entraînement.

Deux défis distincts, souvent confondus : faire entrer le français standard dans les modèles. Et ensuite, ne pas y écraser tout le reste.

La France et le Québec ont des capacités de recherche. Beaucoup de pays d’Afrique francophone restent sous-dotés en infrastructures, en financements, en capacités de recherche. L’écosystème existe. Il est profondément inégal.

Les langues dominantes ne le deviennent pas par hasard. Elles le deviennent par accumulation technique.

Des réponses existent, elles restent hors échelle.

Le data hub LANGU:IA vise à centraliser des corpus francophones issus d’institutions publiques — archives, bibliothèques, recherche. Le projet PIAF produit des données pour les agents conversationnels de l’administration publique. Le Forum francophone de l’IA porte une vision de régulation alternative : éthique, diverse, ancrée dans les droits.

Ces initiatives existent. Elles sont réelles.

À l’échelle des budgets des grands modèles, elles restent marginales.

Ce n’est pas un jugement. C’est une mesure de l’asymétrie.

Ce que ça implique

Un chatbot administratif déployé à Dakar ou Port-au-Prince avec des modèles entraînés sur du texte principalement occidental produira des résultats inadaptés. Il ne comprendra pas les registres locaux. Il corrigera des formulations correctes. Il suggérera des réponses hors contexte.

Pas malveillant. Juste décalé. Ce qui, à l’échelle des services publics, revient au même.

Même chose pour les outils éducatifs. Pour les assistants médicaux calibrés sur des données nord-américaines. Le biais n’est pas spectaculaire. Il est systémique.

Pour les décideurs publics, la dépendance à des plateformes étrangères pour des services essentiels n’est pas une position neutre. Pour les entreprises, les corpus sectoriels francophones et les cas d’usage adaptés restent à construire. C’est un marché. C’est aussi une responsabilité.

Ce qui reste à faire

Personne ne va résoudre ça seul.

Pas un gouvernement, pas une entreprise, pas un chercheur.

Ce qui manque, c’est une accumulation délibérée — symétrique à celle qui a produit le problème.

Ouvrir les corpus. Les institutions publiques francophones — INA, BnF, universités, administrations — détiennent des masses de contenus en français. La majorité reste fermée ou inaccessible aux entraînements de modèles. Changer ça ne demande pas de budget supplémentaire. Ça demande une décision.

Intégrer la langue comme critère d’achat. Quand une collectivité, un ministère ou une entreprise publique déploie un outil d’IA, les données d’entraînement devraient figurer dans le cahier des charges. Quelle langue ? Quel registre ? Quelle représentation des variétés francophones ? Ce critère n’existe presque nulle part aujourd’hui.

Financer les corpus manquants. Le français hexagonal est sous-représenté. Le français d’Afrique, des Caraïbes, du Pacifique l’est bien davantage. Des projets de collecte existent. Ils manquent de moyens. Un fonds francophone dédié aux données d’entraînement — porté par l’OIF, les États membres, ou les deux — est une piste concrète et réaliste.

Connecter ce qui existe. Les chercheurs, les startups, les administrations et la société civile travaillent souvent en parallèle. Des plateformes d’échange existent. Elles restent sous-utilisées. Organiser des rencontres régulières entre ces acteurs — pas des colloques, des espaces de travail — changerait l’échelle des initiatives.

Mesurer et publier. On ne peut pas corriger ce qu’on ne mesure pas. Un observatoire de la présence francophone dans les grands modèles — chiffres, tendances, comparaisons — rendrait l’asymétrie visible et opposable.

Ce ne sont pas des utopies. Ce sont des décisions qui n’ont pas encore été prises.

Conclusion

L’IA ne détruira pas le français.

Mais si rien ne change dans la façon dont les données sont collectées, les modèles entraînés et les outils déployés, elle accélérera tranquillement son effacement.

0,2 %. C’est le poids actuel du français dans l’IA.

Ce chiffre est politique.