Proiectul Panama: Milioane de cărți au fost scanate și distruse de Anthropic AI pentru a antrena Inteligența Artificială

429 0

La începutul anului 2024, conducerea start-up-ului de inteligență artificială Anthropic a accelerat un proiect ambițios pe care a încercat să îl păstreze departe de ochii publicului. „Project Panama este efortul nostru de a scana distructiv toate cărțile din lume”, se arată într-un document intern de planificare, făcut public la finalul lunii ianuarie în urma unor proceduri judiciare. „Nu dorim ca acest aspect să fie cunoscut.”

Potrivit documentelor depuse la dosar, într-un interval de aproximativ un an compania a cheltuit zeci de milioane de dolari pentru a achiziționa milioane de volume tipărite, ale căror cotoare au fost tăiate pentru a permite scanarea paginilor. Scopul a fost introducerea conținutului în modelele de inteligență artificială care se află la baza unor produse precum chatbot-ul Claude, scrie The Washington Post.

Detalii despre Project Panama, care nu fuseseră raportate anterior, au ieșit la iveală într-un set de peste 4.000 de pagini de documente dintr-un proces intentat de autori Anthropic-ului, companie evaluată de investitori la 183 de miliarde de dolari. Deși firma a acceptat să plătească 1,5 miliarde de dolari pentru a soluționa litigiul în august, o decizie recentă a unui judecător federal de a desecretiza mai multe documente a oferit o imagine mai amplă asupra modului agresiv în care compania a urmărit accesul la cărți.

Noile documente, alături de alte dosare din procese similare intentate altor companii de tehnologie, arată până unde au mers firme precum Anthropic, Meta, Google și OpenAI pentru a obține cantități uriașe de date necesare „antrenării” software-ului lor.

Acțiuni în justiție

Cazul Anthropic face parte dintr-un val mai larg de acțiuni în justiție inițiate de autori, artiști, fotografi și instituții media, care acuză companiile de inteligență artificială de încălcarea drepturilor de autor. Documentele judiciare descriu o cursă frenetică, uneori clandestină, pentru colectarea operelor scrise ale umanității.

Instanțele arată că volumele tipărite erau considerate un premiu esențial. Într-un document intern din ianuarie 2023, unul dintre cofondatorii Anthropic susținea că antrenarea modelelor pe cărți ar putea învăța inteligența artificială „să scrie bine”, în loc să imite „limbajul de slabă calitate de pe internet”. Un e-mail intern din 2024, Meta descria accesul la o bibliotecă digitală de cărți drept „esențial” pentru a rămâne competitivă.

Totuși, documentele sugerează că firmele nu au considerat realist să obțină acordul direct al autorilor și editorilor. În schimb, potrivit acuzațiilor, unele companii au recurs la descărcarea în masă a unor copii piratate, fără știrea creatorilor.

În cazul Meta, mesaje interne arată că unii angajați și-au exprimat îngrijorarea că descărcarea a milioane de cărți fără permisiune ar putea încălca legea dreptului de autor. Un e-mail din decembrie 2023 indică faptul că practica ar fi fost aprobată după o „escaladare către MZ”, o aparentă referire la directorul general Mark Zuckerberg.

Într-un document juridic recent, Anthropic a recunoscut că unul dintre cofondatori, Ben Mann, a descărcat în 2021, timp de 11 zile, un volum mare de cărți de ficțiune și non-ficțiune de pe LibGen, o așa-numită „bibliotecă din umbră”. Ulterior, Mann a distribuit colegilor un link către Pirate Library Mirror, un site care afirma deschis că încalcă legislația dreptului de autor.

Anthropic a declarat însă că datele respective nu au fost folosite pentru a antrena modele comerciale care să genereze venituri.

Ed Newton-Rex, fost director din industria AI și fondator al unei organizații care apără drepturile creatorilor, spune că aceste dezvăluiri evidențiază o problemă structurală. „Este nevoie urgentă de o resetare a industriei, astfel încât creatorii să fie remunerați corect pentru contribuțiile lor esențiale”, afirmă el.

Între timp, Google, Microsoft și OpenAI se confruntă la rândul lor cu procese similare. Majoritatea cazurilor sunt încă în desfășurare, iar juriștii subliniază că legea în acest domeniu rămâne neclară. În două decizii timpurii, judecătorii au stabilit totuși că utilizarea cărților pentru antrenarea modelelor AI poate fi legală în baza principiului „fair use”, dacă procesarea este considerată „transformatoare”.

În iunie, un judecător federal a decis că Anthropic a avut dreptul să folosească cărți în antrenarea AI, comparând procesul cu modul în care profesorii îi învață pe elevi să scrie. Cu toate acestea, instanța a precizat că metodele de achiziție a materialelor pot constitui o problemă separată.

Cumpărate, tăiate, scanate, reciclate

Pentru Project Panama, Anthropic a apelat la Tom Turvey, un veteran din Silicon Valley care lucrase anterior la controversatul proiect Google Books. Compania a analizat inițial achiziția de volume de la librării și biblioteci, inclusiv de la celebra Strand din New York, dar în cele din urmă a cumpărat milioane de cărți de la comercianți de carte second-hand din SUA și Marea Britanie.

Cărțile erau tăiate cu echipamente industriale, scanate cu aparate de mare viteză, iar apoi trimise la reciclare.

Un sentiment de disconfort

Documente din procesele împotriva Meta arată că și acolo unii angajați au avut rezerve. „Descărcarea de torrente de pe un laptop corporativ nu pare în regulă”, scria un inginer într-un mesaj intern din 2023.

În cele din urmă, dezbaterea juridică rămâne deschisă. Profesorul James Grimmelmann, specialist în drept digital, spune că decizia Antropic de a scana cărți fizice în loc să se bazeze pe biblioteci piratate „s-a dovedit a fi o alegere inteligentă” și un exemplu de abordare mai prudentă într-o industrie aflată sub presiune intensă.

Citiți și:
AI Sex: Meta, acuzată că ar fi descărcat mii de filme pentru adulți pentru a-și antrena Inteligența Artificială
Inteligența Artificială sau cultul idolilor moderni

yogaesoteric
1 martie 2026