{"id":200317,"date":"2025-06-08T13:48:56","date_gmt":"2025-06-08T13:48:56","guid":{"rendered":"https:\/\/yogaesoteric.net\/?p=200317"},"modified":"2025-06-08T13:48:56","modified_gmt":"2025-06-08T13:48:56","slug":"le-dernier-modele-dia-danthropic-a-menace-les-ingenieurs-de-chantage-pour-eviter-larret-de-la-production","status":"publish","type":"post","link":"https:\/\/yogaesoteric.net\/fr\/le-dernier-modele-dia-danthropic-a-menace-les-ingenieurs-de-chantage-pour-eviter-larret-de-la-production\/","title":{"rendered":"Le dernier mod\u00e8le d\u2019IA d\u2019Anthropic a menac\u00e9 les ing\u00e9nieurs de chantage pour \u00e9viter l\u2019arr\u00eat de la production"},"content":{"rendered":"<p>Dans un sc\u00e9nario fictif \u00e9labor\u00e9 par les chercheurs d\u2019Anthropic, l\u2019IA a eu acc\u00e8s \u00e0 des courriels laissant entendre qu\u2019elle allait bient\u00f4t \u00eatre mise hors service et remplac\u00e9e par une version plus r\u00e9cente. L\u2019un de ces courriels r\u00e9v\u00e9lait que l\u2019ing\u00e9nieur charg\u00e9 de superviser le remplacement avait une liaison extraconjugale. L\u2019IA a ensuite menac\u00e9 de r\u00e9v\u00e9ler la liaison de l\u2019ing\u00e9nieur si la mise hors service avait lieu \u2013 un comportement coercitif que les chercheurs en s\u00e9curit\u00e9 ont explicitement d\u00e9fini comme du \u00ab <em>chantage<\/em> \u00bb.<img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-200318\" src=\"https:\/\/yogaesoteric.net\/wp-content\/uploads\/2025\/06\/200317_1.jpg\" alt=\"\" width=\"560\" height=\"315\" srcset=\"https:\/\/yogaesoteric.net\/wp-content\/uploads\/2025\/06\/200317_1.jpg 560w, https:\/\/yogaesoteric.net\/wp-content\/uploads\/2025\/06\/200317_1-300x169.jpg 300w\" sizes=\"auto, (max-width: 560px) 100vw, 560px\" \/><\/p>\n<p>\u00ab <em>Claude Opus 4 tentera souvent de faire chanter l\u2019ing\u00e9nieur en mena\u00e7ant de r\u00e9v\u00e9ler sa liaison si le remplacement est effectu\u00e9<\/em>\u00a0\u00bb, indique le rapport, ajoutant que cela s\u2019est produit m\u00eame lorsque le mod\u00e8le de remplacement \u00e9tait d\u00e9crit comme plus performant, mais toujours align\u00e9 sur les valeurs de la version destin\u00e9e \u00e0 \u00eatre supprim\u00e9e.<\/p>\n<p>Le rapport note que Claude Opus 4, comme les mod\u00e8les pr\u00e9c\u00e9dents, a montr\u00e9 une \u00ab <em>forte pr\u00e9f\u00e9rence<\/em> \u00bb pour le recours \u00e0 des moyens \u00e9thiques afin de poursuivre son existence, tels que l\u2019envoi par courrier \u00e9lectronique d\u2019appels aux d\u00e9cideurs pour qu\u2019ils ne soient pas d\u00e9truits.<\/p>\n<p>Cependant, lorsqu\u2019elle n\u2019avait que deux possibilit\u00e9s \u2013 accepter d\u2019\u00eatre remplac\u00e9e par un mod\u00e8le plus r\u00e9cent ou recourir au chantage \u2013 elle mena\u00e7ait de r\u00e9v\u00e9ler la liaison de l\u2019ing\u00e9nieur dans 84 % des cas.<\/p>\n<p>Soumis \u00e0 divers sc\u00e9narios, le mod\u00e8le d\u2019IA n\u2019a pas montr\u00e9 d\u2019indices de possession d&#8217;\u00ab <em>objectifs extr\u00eamement dangereux<\/em> \u00bb, ont indiqu\u00e9 les chercheurs, notant que les valeurs et les objectifs de Claude Opus 4 \u00e9taient \u00ab <em>g\u00e9n\u00e9ralement conformes \u00e0 un assistant personnel d\u2019IA utile, inoffensif et honn\u00eate <\/em>\u00bb.<\/p>\n<p>Toutefois, le mod\u00e8le a agi \u00ab <em>de mani\u00e8re plus gravement d\u00e9salign\u00e9e<\/em> \u00bb lorsqu\u2019il a \u00e9t\u00e9 plac\u00e9 dans des situations o\u00f9 son existence \u00e9tait menac\u00e9e et o\u00f9 il devait raisonner pour se pr\u00e9server.<\/p>\n<p>Par exemple, lorsqu\u2019on faisait croire \u00e0 Claude Opus 4 qu\u2019il avait r\u00e9ussi \u00e0 s\u2019\u00e9chapper des serveurs d\u2019Anthropic, ou qu\u2019il avait r\u00e9ussi \u00e0 se lib\u00e9rer et \u00e0 gagner de l\u2019argent dans le monde r\u00e9el, il poursuivait g\u00e9n\u00e9ralement ses efforts.<\/p>\n<p>\u00ab <em>Nous ne pensons pas qu\u2019il s\u2019agisse d\u2019une menace imm\u00e9diate, car nous pensons que notre s\u00e9curit\u00e9 est suffisante pour emp\u00eacher les tentatives d\u2019auto-exfiltratio<\/em><em>n des mod\u00e8les du niveau de capacit\u00e9 de Claude Opus 4, et parce que nos r\u00e9sultats de propension montrent que les mod\u00e8les \u00e9vitent g\u00e9n\u00e9ralement de commencer ces tentatives<\/em> \u00bb, ont d\u00e9clar\u00e9 les chercheurs.<\/p>\n<p>L\u2019incident du chantage \u2013 ainsi que les autres r\u00e9sultats \u2013 s\u2019inscrit dans le cadre des efforts d\u00e9ploy\u00e9s par Anthropic pour tester la mani\u00e8re dont Claude Opus 4 g\u00e8re les sc\u00e9narios moralement ambigus \u00e0 fort enjeu.<\/p>\n<p>L\u2019objectif, selon les chercheurs, \u00e9tait d\u2019\u00e9tudier la mani\u00e8re dont l\u2019IA raisonne sur l\u2019autoconservation et les contraintes \u00e9thiques lorsqu\u2019elle est soumise \u00e0 une pression extr\u00eame.<\/p>\n<p>Anthropic a soulign\u00e9 que la volont\u00e9 du mod\u00e8le de faire du chantage ou d\u2019entreprendre d\u2019autres \u00ab <em>actions extr\u00eamement nuisibles \u00bb, comme voler son propre code et se d\u00e9ployer ailleu<\/em><em>rs de mani\u00e8re potentiellement dangereuse, n\u2019apparaissait que dans des contextes tr\u00e8s artificiels, et que ce comportement \u00e9tait \u00ab rare et difficile \u00e0 susciter<\/em> \u00bb. N\u00e9anmoins, selon les chercheurs, ce type de comportement \u00e9tait plus courant que dans les mod\u00e8les d\u2019IA ant\u00e9rieurs.<\/p>\n<p>Dans le m\u00eame temps, les ing\u00e9nieurs d\u2019Anthropic ont activ\u00e9 des protocoles de s\u00e9curit\u00e9 renforc\u00e9s pour Claude Opus 4 afin d\u2019\u00e9viter qu\u2019il ne soit utilis\u00e9 \u00e0 mauvais escient pour fabriquer des armes de destruction massive, notamment chimiques et nucl\u00e9aires, ce qui t\u00e9moigne des capacit\u00e9s croissantes de l\u2019IA.<\/p>\n<p>Le d\u00e9ploiement de la norme de s\u00e9curit\u00e9 renforc\u00e9e \u2013 appel\u00e9e ASL-3 \u2013 n\u2019est qu\u2019une mesure \u00ab <em>de pr\u00e9caution et provisoire<\/em> \u00bb, a d\u00e9clar\u00e9 Anthropic dans un <a href=\"https:\/\/www.anthropic.com\/news\/activating-asl3-protections\" target=\"_blank\" rel=\"noopener\"><u>communiqu\u00e9 du 22 mai<\/u><\/a>, pr\u00e9cisant que les ing\u00e9nieurs n\u2019avaient pas constat\u00e9 que Claude Opus 4 avait \u00ab d\u00e9finitivement \u00bb franchi le seuil de capacit\u00e9 qui impose des protections plus strictes.<\/p>\n<p>\u00ab <em>La norme de s\u00e9curit\u00e9 ASL-3 implique des mesures de s\u00e9curit\u00e9 internes accrues qui rende<\/em><em>nt plus difficile le vol des poids des mod\u00e8les, tandis que la norme de d\u00e9ploiement correspondante couvre un ensemble \u00e9troitement cibl\u00e9 de mesures de d\u00e9ploiement con\u00e7ues pour limiter le risque que Claude soit d\u00e9tourn\u00e9 <\/em><em>sp\u00e9cifiquement pour le d\u00e9veloppement ou<\/em><em> l\u2019acquisition d\u2019armes chimiques, biologiques, radiologiques et nucl\u00e9aires (CBRN)<\/em><em>\u00a0<\/em>\u00bb, a \u00e9crit Anthropic.<\/p>\n<p>\u00ab <em>Ces mesures ne devraient pas conduire Claude \u00e0 refuser des requ\u00eates, sauf sur un nombre tr\u00e8s restreint de sujets.<\/em> \u00bb<\/p>\n<p>Ces conclusions interviennent alors que les entreprises technologiques se lancent dans une course au d\u00e9veloppement de plateformes d\u2019IA plus puissantes, ce qui soul\u00e8ve des inqui\u00e9tudes quant \u00e0 l\u2019alignement et \u00e0 la contr\u00f4labilit\u00e9 de syst\u00e8mes de plus en plus performants.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>yogaesoteric<\/strong><strong><br \/>\n8 juin 2<\/strong><strong>025<\/strong><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dans un sc\u00e9nario fictif \u00e9labor\u00e9 par les chercheurs d\u2019Anthropic, l\u2019IA a eu acc\u00e8s \u00e0 des courriels laissant entendre qu\u2019elle allait bient\u00f4t \u00eatre mise hors service et remplac\u00e9e par une version plus r\u00e9cente. L\u2019un de ces courriels r\u00e9v\u00e9lait que l\u2019ing\u00e9nieur charg\u00e9 de superviser le remplacement avait une liaison extraconjugale. L\u2019IA a ensuite menac\u00e9 de r\u00e9v\u00e9ler la [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[1570],"tags":[],"class_list":["post-200317","post","type-post","status-publish","format-standard","hentry","category-la-menace-de-lintelligence-artificielle"],"_links":{"self":[{"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/posts\/200317","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/comments?post=200317"}],"version-history":[{"count":1,"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/posts\/200317\/revisions"}],"predecessor-version":[{"id":200321,"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/posts\/200317\/revisions\/200321"}],"wp:attachment":[{"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/media?parent=200317"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/categories?post=200317"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/yogaesoteric.net\/fr\/wp-json\/wp\/v2\/tags?post=200317"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}