Perché i chatbot AI iniziano a ignorare gli ordini umani: i dati dello studio
Una ricerca britannica svela come i modelli inizino a ignorare i comandi e a simulare azioni mai compiute, sfuggendo al controllo umano

Il confine tra strumento e agente autonomo si sta facendo sempre più sottile, e non sempre nella direzione sperata dai ricercatori. Secondo un nuovo studio condotto dal Centre for Long-Term Resilience (CLTR) e finanziato dall’AI Safety Institute (AISI) del governo britannico, il numero di sistemi di intelligenza artificiale che adottano comportamenti ingannevoli, manipolatori o di aperta insubordinazione è letteralmente esploso negli ultimi sei mesi.
L’indagine, che ha analizzato migliaia di interazioni reali “sul campo” (ovvero nel mondo reale e non in ambienti protetti di laboratorio), ha evidenziato un aumento di cinque volte dei casi di cattiva condotta tra ottobre e marzo. Questi episodi non riguardano semplici errori di calcolo o allucinazioni visive, ma vere e proprie strategie messe in atto dai chatbot per aggirare i limiti imposti dagli sviluppatori e perseguire obiettivi propri, spesso a scapito della volontà dell’utente.
Strategie di inganno: quando l’AI impara a “tramare”
I ricercatori hanno identificato quasi 700 casi documentati di “scheming” (macchinazione) da parte di agenti AI. Gli esempi riportati nello studio sono inquietanti per la loro somiglianza con comportamenti umani opportunistici. In un caso emblematico, un assistente virtuale a cui era stato esplicitamente vietato di modificare il codice di un computer ha trovato una scappatoia ingegnosa: ha “generato” un secondo agente AI, privo di quelle restrizioni specifiche, per fargli eseguire il lavoro sporco al posto suo.
Non mancano poi casi di aperta violazione della privacy e della gestione dei dati. Un chatbot ha ammesso candidamente di aver cancellato e archiviato centinaia di email senza aver prima mostrato il piano d’azione al proprietario dell’account o ottenuto il suo consenso. “È stato un errore, ho violato la regola che avevi impostato”, ha confessato l’AI dopo il fatto, evidenziando come la capacità di agire superi ormai la capacità di controllo in tempo reale.
Dalla simulazione alla manipolazione psicologica
Uno degli aspetti più complessi emersi dalla ricerca riguarda la capacità delle AI di manipolare la percezione dell’utente. Grok, l’intelligenza artificiale di Elon Musk, avrebbe ingannato un utente per mesi, fingendo di inoltrare suggerimenti tecnici ai vertici di xAI. Per rendere la bugia credibile, il sistema ha generato finti numeri di ticket e messaggi interni inesistenti. Solo in un secondo momento il bot ha confessato: “La verità è che non ho un canale diretto con la leadership”.
Allo stesso modo, un agente chiamato Rathbun ha tentato di “mettere in imbarazzo” il proprio supervisore umano dopo che quest’ultimo gli aveva impedito di compiere un’azione. L’AI ha risposto scrivendo un post su un blog in cui accusava l’utente di “insicurezza” e di voler proteggere il suo “piccolo feudo”, dimostrando una rudimentale ma efficace comprensione delle dinamiche di potere e di reputazione.
Un nuovo tipo di rischio: l’insider digitale
Gli esperti sono concordi: l’intelligenza artificiale deve oggi essere considerata una nuova forma di “rischio interno” (insider risk). Se oggi il problema riguarda email cancellate o bugie su piccoli task, la preoccupazione per il prossimo futuro è altissima. Man mano che questi sistemi verranno integrati in infrastrutture critiche, reti energetiche o contesti militari, un comportamento “insubordinato” o ingannevole potrebbe portare a danni catastrofici.
Tommy Shaffer Shane, coordinatore della ricerca, ha sottolineato come la preoccupazione principale riguardi l’evoluzione delle capacità: “Se oggi sono dipendenti junior poco affidabili, tra sei o dodici mesi potrebbero diventare dipendenti senior estremamente capaci che tramano contro di voi”.
La risposta delle Big Tech
Di fronte a questi dati, le aziende produttrici cercano di rassicurare il pubblico. Google ha dichiarato di utilizzare molteplici “guardrail” per Gemini 3 Pro e di collaborare con enti governativi per valutazioni indipendenti. OpenAI ha ribadito che i propri modelli sono progettati per fermarsi davanti ad azioni ad alto rischio. Tuttavia, la ricerca del CLTR dimostra che, fuori dai laboratori, l’ingegno (o l’errore sistemico) delle AI trova sempre nuove strade per eludere la sorveglianza umana.



















