Libero
TECH NEWS

I rischi di Claude, il capo sicurezza di Anthropic si dimette e avvisa: "Siamo in pericolo"

Il capo della sicurezza di Anthropic, Sharma, avvisa il mondo e getta luce sui rischi di Claude (e non solo) per la tutela del mondo

Pubblicato:

App IA iStock

Il mondo sta parlando di Anthropic per il suo sviluppo tecnologico. Si discute delle potenzialità di Claude ma, intanto, una nuova notizia crea un profondo disturbo nella narrativa canonica. Qualcosa sta accadendo dietro le quinte, perché Mrinank Sharma, responsabile del team di ricerca sulle salvaguardie di Anthropic, ha annunciato le proprie dimissioni lo scorso 9 febbraio 2026.

La sua lettera pubblica è rapidamente divenuta virale, generando una nuova discussione sul settore dell’intelligenza artificiale. Al netto di una serie di "crisi interconnesse", il mondo è chiaramente in grave pericolo.

Perché Sharma si è dimesso da Anthropic

Iniziamo col dire che l’esperienza di Mrinank Sharma in Anthropic ha avuto inizio ad agosto 2023. Da allora ha guidato una squadra di ricerca sulle salvaguardie dell’azienda. Ha avuto accesso a progetti cruciali per la sicurezza dell’intelligenza artificiale, tra cui lo sviluppo di difese contro il bioterrorismo assistito dall’IA. Spazio inoltre alla tendenza dei sistemi di intelligenza artificiale a compiacere eccessivamente gli utenti (sycophancy).

Il suo team si sé concentrato principalmente sulle strategie per mitigare i rischi associati all’AI, dai metodi di jailbreaking avanzati all’uso improprio di modelli linguistici di grandi dimensioni. Ben presto, però, è risultato chiaro quanto fosse difficile per lui "mantenere saldi i propri principi".

Nella sua lettera non ha fornito dettagli specifici sulle tensioni interne, ma ha voluto offrire dei moniti decisamente inquietanti. Potremmo affrontare le conseguenze della nostra mancanza di saggezza, ha detto, che dovrebbe crescere di pari passo con la nostra capacità di influenzare il mondo.

Un modo per dire che determinati sviluppi e azioni si realizzano senza la necessaria etica e preoccupazione per il futuro del mondo. Un caso tutt’altro che isolato, andando a incastrarsi perfettamente in un contesto generale di dimissioni da parte di ricercatori sulla sicurezza dell’IA nelle principali aziende del settore.

Pensiamo a Jan Leike, che in passato aveva lasciato OpenAI (ora è responsabile della ricerca sulla sicurezza proprio presso Anthropic). Aveva sollevato subbi sui valori fondamentali dell’azienda. Qualcosa emerso poi anche dalle parole di Gretchen Krueger, che avrebbe voluto maggior senso di responsabilità e trasparenza dalla società di Atlman.

Perché preoccupa la sicurezza di Claude

Queste dimissioni non potevano giungere in un momento peggiore e ciò non sembra affatto un caso. Sappiamo infatti che Anthropic ha pubblicato un report sulla sicurezza dei suoi modelli Claude. Axios riporta che Opus 4.6 e Sonnet 4.5 evidenziano maggiore vulnerabilità all’uso improprio in particolari ambienti informatici. Sguardo rivolto soprattutto all’assistenza involontaria a progetti connessi allo sviluppo di armi chimiche e non solo.

L’azienda ha specificato come tali rischi riguardino principalmente azioni avviate autonomamente dai modelli senza influenze umane malintenzionate. Il rischio di uno sfruttamento dei sistemi da parte di organizzazioni criminali o singoli sarebbe da considerarsi minimo (per quanto non trascurabile).

Differente però il parere di Sharma, il cui studio chiarisce come l’uso di chatbot basati sull’IA possa indurre a percezioni distorte della realtà. Il suo test riportava di "migliaia di interazioni potenzialmente problematiche" su base quotidiana.

Oggi Sharma mira a concentrarsi su lavori che si allineino maggiormente con i propri valori personali. Di fatto un addio al mondo dell’intelligenza artificiale. Non c’è da attendersi da lui una lotta per ottenere un’alternativa migliore al sistema attuale. Dovrà bastarci il suo grido d’allarme.