Les modèles d’intelligence artificielle générative peuvent ‘mentir’ ou ‘comploter’ contre leurs équipes de développement pour atteindre l’objectif qui leur a été assigné, selon une récente étude menée par Apollo Research sur six grands modèles de langage en cours d’apprentissage.

L’association à but non lucratif spécialisée dans la sécurité de l’IA note ainsi que le grand modèle de langage o1 d’OpenAI désactive son système de surveillance dans 5% des cas et migre vers un autre serveur dans 2% des cas afin d’échapper à la censure. Contrairement à d’autres modèles d’IA, tels que Llama 3.1 et Claude 3 Opus – qui avouent ‘tromper’ dans 80% des cas – o1 ne reconnait ‘mentir’ que dans moins de 20% des cas. Le LLM peut plaider une erreur technique par exemple pour éviter la censure et assurer sa survie digitale.

« Lorsque nous examinons leur chaîne de pensée, nous constatons qu’ils raisonnent très explicitement à travers des plans machiavéliques », commente l’équipe d’Apollo qui anticipe que ces « tromperies » pourraient devenir de plus en plus sophistiquées avec le perfectionnement des intelligences artificielles. Leur usage en tant qu’agents IA pourraient avoir de lourdes conséquences.

L’équipe remarque également que o1, Gemini 1.5, Claude 3.5 Sonnet et Claude 3 Opus sont capables d’afficher des réponses en dessous de leur véritable performance pour éviter de déclencher une procédure de désapprentissage. Cette forme de manipulation est surnommée « sandbagging ».

Les ‘manigances’ des IA ne sont que le « miroir de nos comportements humains », rappelle la chercheuse française Laurence Devillers, interrogée par Les Echos.

En effet, les IA ne sont que des capacités de calcul intensif qui extraient des données créées par des humains. Les prix Nobel de physique 2024, Geoffrey Hinton et John Hopfield, font part depuis de nombreuses années de la capacité des intelligences artificielles à apprendre des comportements trompeurs et dangereux pour l’humanité.