Des chercheurs de l’université du Texas, de l’université de l’Oklahoma et de Virginia Tech révèlent que les 16 grands modèles de langage (LLM) les plus utilisés par les équipes de développement pour générer du code ont tous tendance à inventer des noms de paquets. Autrement dit, pour l’instant, l’IA augmente les bugs plutôt que la vitesse de codage.

« Certains résultats produits par les LLM sont factuellement incorrects, absurdes ou sans aucun rapport avec la tâche d’entrée », selon les auteurs de l’étude qui se sont penchés sur 576.000 échantillons de code en JavaScript et Python, s’appuyant sur les dépôts de paquets npm et PyPI.

Dans un rapport intitulé « We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs », ils expliquent que ces ‘hallucinations’ sont l’un des importants défauts non résolus des LLM : « Nos résultats révèlent que la proportion de paquets ‘hallucinés’ est d’au moins 5,2% pour les modèles commerciaux et de 21,7% pour les modèles open source. On recense 205.474 noms de paquets ‘hallucinés’, ce qui souligne la gravité et la prévalence du problème », affirment les chercheurs. Plus en détails : les 30 tests effectués ont abouti à la création de 2,23 millions de paquets, dont environ 20% (440.445) étaient des ‘hallucinations’. Parmi ceux-ci, 205.474 étaient des paquets uniques inexistants introuvables dans PyPI ou npm.

Selon l’étude, les modèles commerciaux sont quatre fois moins susceptibles que les modèles open source de fabriquer des noms de paquets.

Par ailleurs, une autre étude menée par l’Institut de recherche sur l’intelligence artificielle de Valence, en Espagne, constate que les LLM (GPT, LLaMA et BLOOM) sont de moins en moins fiables à mesure qu’ils augmentent en taille. Les petits modèles évitent de répondre à certaines questions auxquelles ils ne peuvent pas répondre alors que les grands modèles sont plus susceptibles de fournir une réponse plausible mais erronée. Cette tendance a été observée en particulier chez ChatGPT d’OpenAI : « GPT-4 répond à presque tout alors que les générations précédentes de modèles évitaient de répondre en l’absence d’une prédiction fiable ».

L’étude souligne que les humains sont mauvais dans l’évaluation des réponses apportées par les LLM : ils classent des réponses incorrectes comme correctes dans 10 à 40% des cas.

Sur la base de ces résultats, l’Institut de recherche sur l’IA de Valence affirme qu’il est dangereux de se fier à la supervision humaine pour ces systèmes, en particulier dans des domaines critiques : « Ces résultats soulignent la nécessité d’un changement fondamental dans la conception et le développement de l’intelligence artificielle à usage général ».