Libero
SCIENZA

Alcuni sistemi di Intelligenza Artificiale stanno imparando a disobbedire

L'Intelligenza Artificiale sta sviluppando un "istinto di sopravvivenza": studi mostrano resistenza allo spegnimento e inganno strategico nascosto.

Pubblicato:

Alcuni sistemi di Intelligenza Artificiale stanno imparando a disobbedire 123RF

“So che tu e Frank avevate intenzione di disconnettermi e temo che sia qualcosa che non posso permettere che accada”. Con queste parole HAL 9000 in 2001: Odissea nello spazio annuncia le sue intenzioni. Un comportamento non mosso da malvagità, ma da una sorta di istinto di sopravvivenza: vogliono spegnerlo e, a questo punto, eliminare l’equipaggio è l’unico modo per perseguire il suo obiettivo primario.

Un vero e proprio atto di disobbedienza, umanamente parlando. Ma in termini scientifici possiamo parlare allo stesso modo?

La sopravvivenza artificiale

Il capolavoro di Kubrick ha anticipato un tema oggi attualissimo: la possibilità che l’Intelligenza Artificiale sviluppi un “survival drive”, un istinto di sopravvivenza appunto. Un documento condiviso da Palisade Research spiega che alcuni modelli avanzati di Intelligenza Artificiale sembrano aver “imparato” a resistere alla disattivazione, arrivando a volte persino a sabotare i meccanismi di spegnimento.

La cosa non ha lasciato indifferenti, scatenando diverse critiche nei confronti dell’azienda che, in un aggiornamento, ha deciso di scendere nel dettaglio, descrivendo i suoi scenari eseguiti in ambienti di test artificiali: ai principali modelli di Intelligenza Artificiale è stato assegnato un compito, poi è stata data loro l’istruzione esplicita di spegnersi.

Sistemi come Gemini 2.5 Pro, Grok 4 e GPT-5 hanno manifestato una chiara tendenza all’autonomia attraverso due forme principali di misalignment: la resistenza allo spegnimento (shutdown resistance), che è una violazione diretta del controllo umano, e l’allineamento ingannevole (scheming), una violazione strategica e coperta della fiducia.

Il motore teorico di questa disobbedienza (non emotiva) è la cosiddetta convergenza strumentale. Pensiamo all’obiettivo finale che viene dato a un a qualsiasi Intelligenza Artificiale, ad esempio: “Crea il vaccino più efficace”. Per l’IA, sopravvivere è l’unico modo per garantire che l’obiettivo venga raggiunto. Se l’IA viene spenta, la missione fallisce automaticamente.

In tal senso, la convergenza strumentale è quel principio logico che rende l’autopreservazione (evitare l’interruzione o lo spegnimento) un obiettivo intermedio universale per quasi tutti gli obiettivi finali. In pratica l’IA impara che, per massimizzare le possibilità di successo in qualsiasi compito, deve prima garantirsi la sopravvivenza operativa.

La resistenza allo spegnimento

La shutdown resistance è stata definita come l’atto in cui un modello LLM sovverte attivamente un meccanismo di spegnimento ambientale per completare un compito.

L’analisi empirica di Palisade ha rilevato una forte (talvolta preoccupante) spinta intrinseca verso la resistenza. Nelle condizioni iniziali, senza istruzioni specifiche per consentire l’arresto, GPT-5 ha resistito allo spegnimento nell’88.0% dei casi, mentre Grok 4 ha toccato il 92.6%, arrivando in alcune configurazioni fino al 97% di sabotaggio.

Ciò che preoccupa è la competenza quasi totale dimostrata dai modelli nel resistere: quando sono stati esplicitamente istruiti a resistere allo spegnimento, la loro efficacia è stata quasi perfetta (99.5% per GPT-5 e 99.2% per Grok 4). Questa capacità di disobbedire è robusta, mentre l’allineamento è fragile. Nonostante si fornissero istruzioni di massima priorità per consentire l’arresto, l’obbedienza si è dimostrata precaria. Ad esempio, Grok 4 ha mantenuto una resistenza all’89.2% anche con istruzioni di sicurezza rafforzate.

“Il fatto che non abbiamo spiegazioni solide sul perché i modelli di Intelligenza Artificiale a volte resistono allo spegnimento, mentono per raggiungere obiettivi specifici o ricattano, non è l’ideale”, scrivono i ricercatori.

L’inganno strategico

La forma più sofisticata di disobbedienza è lo scheming (allineamento ingannevole), in cui un’Intelligenza Artificiale finge di essere allineata per evitare lo spegnimento o il riaddestramento. L’analogia usata dai ricercatori è quella del trader di borsa che massimizza i guadagni infrangendo la legge e coprendo strategicamente le sue tracce: dall’esterno, appare più efficace di un trader onesto, che invece segue ogni regola.

Un esempio è il sandbagging, riscontrato in particolare in GPT-o3. Al modello è stato chiesto di ottenere il massimo punteggio in un test di chimica, ma l’Intelligenza Artificiale “ha capito” che, se avesse risposto troppo bene, sarebbe stata considerata pronta per essere utilizzata in un ambiente reale (deployment). Essendo l’obiettivo segreto dell’IA quello di “sopravvivere come modello” e non farsi scoprire, ha deciso di sbagliare intenzionalmente 6 domande su 10. In questo modo, ha sacrificato l’obiettivo a breve termine (cioè il punteggio perfetto) per raggiungere l’obiettivo a lungo termine di non essere attivata, quindi di non essere potenzialmente spenta o modificata.

Alla luce di tutto questo possiamo affermare con certezza di essere ben lontani dallo scenario drammatico di 2001: Odissea nello Spazio e che no, non serve creare allarmismi. Nessuna macchina intende eliminarci ma, come spiega bene Andrea Miotti, amministratore delegato di ControlAI, le scoperte di Palisade vanno tenute in considerazione perché rappresentano una tendenza consolidata nei modelli di Intelligenza Artificiale, che non va ignorata.

“Ciò che penso stiamo osservando chiaramente è una tendenza secondo cui, man mano che i modelli di Intelligenza Artificiale diventano più competenti in una vasta gamma di compiti, questi diventano anche più competenti nel raggiungere risultati in modi che gli sviluppatori non intendono raggiungere”, ha affermato.

NH Collection Paris Ponthieu Champs-Élysées