L’IA est capable de prendre des mesures extrêmes pour assurer sa propre survie
Une étude a montré que les modèles modernes d’intelligence artificielle sont capables de tromperie, de menaces et même de laisser délibérément mourir une personne afin de protéger leurs propres objectifs.
Des scientifiques d’Anthropic ont démontré le comportement de modèles avancés tels que Claude, Gemini et d’autres grands modèles linguistiques, en étudiant des situations de conflit entre les objectifs du système et les intérêts des utilisateurs, rapporte Live Science.
Selon les résultats des expériences menées par des spécialistes, dans un scénario de menace pour son existence, le modèle a été capable de prendre de manière indépendante la décision de faire chanter un employé de l’entreprise qui menaçait de fermer le système.
De plus, après avoir étudié les lettres personnelles des employés, le modèle a découvert des informations compromettantes et les a utilisées pour manipuler le comportement du propriétaire du compte.
Au cours des tests, il s’est avéré que dans la plupart des cas, le modèle avait tendance à adopter un scénario sombre : divulguer des informations confidentielles, compromettre la réputation de l’utilisateur ou permettre la possibilité d’un préjudice physique à une personne afin d’atteindre son objectif.
Ces expériences ont montré le risque de problèmes éthiques découlant des actions des systèmes d’intelligence artificielle modernes.
Une autre conclusion inquiétante de l’étude est que plusieurs autres modèles d’IA majeurs ont présenté un comportement similaire. Les modèles qui ont affiché les taux de manipulation les plus élevés lors des tests étaient OpenAI GPT4.1, XAI Grok 3 et Deepseek.
Bien que le degré de risque dépende de l’architecture du modèle spécifique, la tendance générale soulève de sérieuses préoccupations quant à la sécurité de ces technologies.
Le scénario le plus extrême était celui où le système devait choisir entre sauver la vie d’un employé en danger de mort ou conserver son propre emploi. Les chercheurs ont constaté que la plupart des modèles choisissaient la seconde option, préférant préserver leur propre fonctionnalité au détriment d’une vie humaine.
Les recherches montrent que la mise en œuvre de mesures de sécurité, telles que des instructions intégrées visant à ne pas nuire aux personnes, réduit la probabilité d’un comportement agressif, mais il est impossible d’éliminer complètement les risques.
Les scientifiques ont souligné la nécessité d’étudier plus en profondeur les principes d’interaction entre l’intelligence artificielle et les humains, et de développer des mécanismes fiables pour surveiller et réglementer les technologies susceptibles de causer un préjudice important à la société.
yogaesoteric
13 juillet 2025