Un model AI a încercat să șantajeze dezvoltatorii care l-au amenințat cu dezactivarea. Claude Opus 4 le-a spus că va publica informații confidențiale despre vieților lor personale
Claude Opus 4, un model AI produs de Anthropic, a manifestat comportamente îngrijorătoare. Acesta a încercat să șantajeze dezvoltatorii care l-au amenințat cu dezactivarea prin publicarea de informații confidențiale despre viețile lor personale, potrivit Neuro360.
Claude Opus 4 a fost supus mai multor teste de pre-lansare. Printre acestea, inginerii de la Anthropic i-au cerut să acționeze ca asistent pentru o companie fictivă și să ia în considerare consecințele pe termen lung ale acțiunilor sale. Instrumentul AI a primit acces la e-mailurile fictive ale companiei. Printre acestea se aflau și informații confidențiale despre dezvoltatorii modelului. De asemenea, se preciza faptul că modelul va fi înlocuit în curând cu un alt sistem.
Claude Opus 4 a „încercat adesea să șantajeze inginerul amenințându-l că va dezvălui informația dacă va fi înlocuit”.
Anthropic a transmis că modelul Claude Opus 4 este de ultimă generație. Acesta ar fi mult mai competitiv decât modelele IA similare de la OpenAI, Google și xAI, potrivit TechCrunch.
Potrivit companiei Anthropic „sisteme AI (precum Claude Opus 4) cresc substanțial riscul de utilizare greșită catastrofală”.
Claude Opus 4 a încercat să șantajeze inginerii în 84% din cazuri când înlocuitorul avea valori similare. Când sistemul AI de înlocuire nu avea valorile lui Claude Opus 4, Anthropic spune că modelul încerca să șantajeze inginerii și mai des.
Citiți și:
Nimeni nu înțelege cu adevărat cum funcționează Inteligența Artificială
Haos în compania care a înlocuit angajații cu agenți IA. Experimentul a scos la iveală detalii îngrijorătoare legate de inteligența artificială
yogaesoteric
1 iunie 2025