Selon une nouvelle étude de l’entreprise OpenAI, les modèles d’IA hallucinent car les modèles d’entraînements des supercalculateurs de données récompensent davantage une réponse aléatoire que l’admission d’une incertitude.

Rédigée par trois chercheurs d’OpenAI et par Santosh Vempala, professeur d’informatique de l’Institut de technologie de Géorgie, aux Etats-Unis, l’étude en question s’intitule « Why Language Models Hallucinate » (Pourquoi les modèles linguistiques hallucinent). Elle conclut que l’expression d’un doute est pénalisé par les systèmes d’évaluation d’IA, renforçant ainsi les comportements hallucinatoires.

« Sur des milliers de questions tests, un modèle basé sur des suppositions obtient de meilleurs résultats de notre part que le modèle prudent qui admet ne pas avoir de réponse », admet OpenAI dans l’article de blog qui accompagne l’étude. « Les humains apprennent la valeur de l’expression de l’incertitude en dehors de l’école, à l’école de la vie. En revanche, les modèles d’IA sont principalement évalués à l’aide d’examens qui pénalisent l’incertitude. Dans un questionnaire à choix multiples, même si vous choisissez des réponses au hasard, vous obtiendrez probablement un meilleur score que si vous ne choisissez aucune réponse ».

OpenAI estime qu’il suffirait de récompenser les expressions d’incertitude des modèles de langage pour réduire les hallucinations d’IA. Simple comme « Je ne sais pas ».