Plus l'IA devient sophistiquée plus elle hallucine

Les modèles d’intelligence artificielle ‘hallucinent’ de plus en plus, c’est-à-dire qu’ils débitent de plus en plus d’affirmations erronées, rapporte le New York Times, en se basant sur des études de plusieurs éditeurs d’IA. Les entreprises éditrices comme OpenAI n’ont pas encore d’explications à cela.

Ce phénomène va à l’encontre d’une croyance collective que les modèles d’IA deviendraient de plus en plus fiables avec le temps et les investissements dans le secteur.

Pour rappel, une ‘hallucination’ – dans le jargon de l’IA – est une information inventée de toute pièce par un grand modèle de langage (LLM) et présentée comme un fait. Parfois, l’erreur est flagrante mais parfois non. Ceci est d’autant plus dangereux que l’IA est désormais utilisée dans des domaines critiques comme la santé et la recherche.

Dans des cas moins critiques, telles que l’assistance au développement applicatif, des équipes de codage peuvent se retrouver fort dépourvues du jour au lendemain. Par exemple, le robot d’IA qui assure l’assistance technique de Cursor, un outil d’aide à la programmation, a ‘halluciné’ un changement de politique d’entreprise le mois dernier et a stoppé net son aide.

Dans un benchmark interne intitulé PersonQA, OpenAI contate que ses derniers modèles o3 et o4-mini hallucinent davantage que les modèles précédents :

o3 hallucine dans un tiers des cas
o4-mini atteint un taux de 48% d’hallucinations, soit près d’une réponse sur deux
les modèles précédents – o1 et o3-mini – étaient plus fiables, avec des taux respectifs de 16% et 14,8%

« Des recherches supplémentaires sont nécessaires », déclare sobrement OpenAI en guise de conclusion.

Le constat n’est pas unique à OpenAI. Google et DeepSeek ont les mêmes problèmes avec leurs derniers modèles d’IA.

Pour rappel, les grands modèles d’IA sont des supercalculateurs qui ne peuvent pas démêler le vrai du faux. Ils ne sont donc pas vraiment doués d’intelligence, comme le suggère leur nom. Plusieurs scientifiques estiment d’ailleurs que le terme « intelligence artificielle » est mal adapté, même s’il est entré dans le langage courant.

Nos lecteurs ont lu ensuite