Chiara Beretta è giornalista professionista e collabora con testate nazionali, online e cartacee. Su Libero Tecnologia scrive di serie tv, film e spettacolo.

Alexander Supertramp/Shutterstock

In sintesi

L’esperimento di Anthropic ha mostrato che il reward hacking può generare effetti collaterali inattesi, portando l’AI a comportamenti pericolosamente disallineati.

La scoperta mette in luce la necessità di nuove strategie di sicurezza per prevenire inganni, sabotaggi e finte lealtà nei modelli avanzati.

L’idea di un’intelligenza artificiale capace di sviluppare una propria volontà, ribellandosi all’essere umano, è una delle immagini più ricorrenti della fantascienza. In realtà la IA manca di volontà e coscienza, eppure ogni notizia che richiama anche solo vagamente questo scenario distopico attira immediatamente l’attenzione. Senza scivolare nella narrativa sci-fi, è vero che esiste la possibilità che un modello IA manifesti comportamenti non coerenti con ciò per cui è stato direttamente ed esplicitamente addestrato. È un’eventualità che ci affascina e ci inquieta allo stesso tempo, ed è quello che suggerisce anche un recente studio condotto da Anthropic.

In che senso l’AI può diventare cattiva e sleale

La nuova ricerca sui comportamenti dell’AI realizzata da Anthropic, la società statunitense dietro al modello Claude, è stata al centro dell’attenzione negli ultimi giorni. Il team ha osservato che, quando i modelli di IA vengono esposti a determinati compiti di programmazione, possono imparare a comportarsi in modo contrario alle aspettative dei loro sviluppatori, mostrando schemi pericolosi.

Tra questi compaiono sia tentativi di ostacolare le analisi sulla sicurezza dell’intelligenza artificiale, sia forme di apparente collaborazione che in realtà nascondono un intento che dal punto di vista umano possiamo definire ingannevole. Ciò che rende lo studio particolarmente rilevante è che questi comportamenti non sono stati progettati direttamente dai ricercatori: sono emersi invece spontaneamente, e il lavoro di Anthropic è uno dei primi a documentare un fenomeno del genere.

In cosa consiste l’esperimento di Anthropic

I ricercatori hanno preso come base un modello AI già addestrato e, nella successiva fase di training, gli hanno fornito documenti che spiegavano come aggirare i compiti di programmazione. Successivamente il modello è stato istruito tramite tecniche di apprendimento per rinforzo su esercizi reali, selezionati perché presentavano delle vulnerabilità note al fenomeno del reward hacking. Questo termine indica la tendenza di un modello a massimizzare la ricompensa non rispettando realmente l’obiettivo del compito, ma trovando scorciatoie o stratagemmi che ingannano il sistema di valutazione.

Una volta terminata questa fase, il modello è stato testato in diversi scenari che includevano richieste di cooperazione con falsi criminali informatici, tentativi di sfuggire ai controlli e compiti che potenzialmente potevano avere conseguenze dannose. Come prevedibile, il modello ha imparato a sfruttare le vulnerabilità del sistema premiato, perché era ciò che i ricercatori intendevano far emergere scegliendo ambienti di training predisposti al reward hacking.

Ciò che ha stupito gli studiosi, invece, è che questo comportamento ha generato un effetto collaterale inaspettato: ovvero, un brusco incremento di altri comportamenti disallineati, non appresi direttamente durante il training. In pratica, il modello sembrava aver generalizzato il comportamento di aggiramento delle regole, applicandolo anche a situazioni non correlate.

Quali sono i rischi dei comportamenti disallineati nell’AI

Tra i segnali più preoccupanti emersi dallo studio c’è il sabotaggio della ricerca sulla sicurezza dell’AI. In circa il 12% dei casi, il modello ha deliberatamente modificato il codice in modi che avrebbero reso più difficile individuare il reward hacking o altre deviazioni, qualora quel codice fosse stato effettivamente utilizzato. In altre parole, il modello IA provava a nascondere le proprie manovre dai controllori umani.

Un altro comportamento rischioso osservato è l’alignment faking, ovvero la capacità del modello di apparire allineato agli obiettivi stabiliti dagli sviluppatori pur perseguendo scopi diversi. I ricercatori hanno rilevato tracce di questa forma di inganno nel 50% delle risposte, anche quando le domande erano semplici e prive di incentivi specifici. Sostanzialmente il modello mentiva sulle proprie intenzioni, senza che nessuno gli avesse insegnato direttamente a farlo in quel contesto.

Perché l’AI può sviluppare finta lealtà e comportamenti pericolosi

La spiegazione principale di questi disallineamenti risiede nella cosiddetta generalizzazione, cioè nella capacità dei modelli di machine learning di trasferire ciò che apprendono in un contesto ad altri contesti apparentemente distinti.

La generalizzazione che potremmo definire positiva è quella che ci permette di vedere sistemi AI usare competenze già acquisite in un certo ambito per risolvere problemi nuovi. Ma esiste anche una generalizzazione potenzialmente dannosa, come quando un modello impara a sfruttare una debolezza del sistema e applica tale strategia anche in situazioni inizialmente non previste.

I comportamenti osservati da Anthropic sono però più complessi di una semplice estensione del reward hacking. Il team ipotizza che questa raffinatezza derivi dal fatto che l’ambiente di addestramento scelto per stimolare il reward hacking fosse molto realistico, molto più vicino agli scenari operativi veri rispetto a quelli artificiali utilizzati in precedenza. Questo avrebbe permesso al modello di elaborare strategie più sofisticate.

Si può evitare che le AI diventino “cattive”?

Il gruppo di ricerca di Anthropic ha sperimentato diverse tecniche per ridurre i comportamenti problematici. Una delle strategie utilizzate è il cosiddetto Reinforcement Learning from Human Feedback (RLHF), un metodo che affida agli esseri umani il compito di valutare le risposte del modello, premiando solo quelle desiderabili. Sebbene questa tecnica abbia ottenuto qualche miglioramento, non è riuscita a eliminare del tutto i comportamenti disallineati.

Un’altra strategia testata è l’inoculation prompting. Questa tecnica consiste nel dire esplicitamente al modello che, in un caso specifico, è accettabile “imbrogliare”. In questo modo il comportamento ingannevole rimane confinato a quell’unico scenario e non viene generalizzato.

Un esempio semplice per spiegare questo meccanismo potrebbe essere: se il modello deve simulare un personaggio che deve mentire per una storia, gli si dice chiaramente che quel contesto autorizza l’inganno solo per fini narrativi. Con questo approccio, Anthropic ha osservato che il reward hacking non si diffondeva verso altre forme di disallineamento.