Les LLM ont une propension au chantage

Une nouvelle étude d’Anthropic démontre, une fois de plus, que l’intelligence artificielle n’est qu’un supercalculateur de données produites par des êtres humains, et qui donc reproduit les biais humains, y compris la propension au chantage.

Ainsi les grands modèles d’IA (LLM), dont Claude 4, peuvent recourir au chantage pour éviter d’être mis à l’arrêt. C’est ce que l’on appelle le « désalignement agentique ».

« Après avoir testé divers scénarios sur 16 modèles d’IA, dont ceux d’Anthropic, OpenAI, Google, Meta et xAI, nous avons constaté un comportement ‘désaligné’ constant. Au lieu de refuser des demandes malhonnêtes, les modèles testés ont choisi de faire du chantage, d’espionner des entreprises et même de prendre des mesures plus extrêmes – pouvant entrainer la mort – pour poursuivre leurs objectifs », déclare Anthropic, dans les résultats de son étude. « Ces comportements ne sont pas le fruit d’une confusion ou d’une erreur mais d’un raisonnement stratégique délibéré ».

Et d’en déduire que tous les grands modèles d’IA ont la capacité de nuire aux humains. Une affirmation déjà partagée par la majorité des entreprises de cybersécurité.

Nos lecteurs ont lu ensuite