Come impedire che l'AI diventi “cattiva”? Forse insegnandole a esserlo
Per evitare che l’IA sviluppi comportamenti pericolosi, uno studio suggerisce di insegnarle prima quei tratti, così da renderla più resistente ai dati problematici

Con l’avanzare dei sistemi di intelligenza artificiale, cresce anche il rischio che questi modelli assumano comportamenti imprevisti o indesiderati. Alcuni esperti parlano proprio di cambi di personalità dell’IA, cioè modifiche nel modo in cui il modello risponde, si relaziona con gli utenti o interpreta i dati ricevuti, diventando eccessivamente adulante, manipolatrice o pericolosa. Un nuovo studio propone una soluzione: per evitare che la IA sviluppi tratti “cattivi”, bisogna esporla proprio a quei tratti durante l’addestramento. Un po’ come si fa con i vaccini, che somministrano una forma attenuata del virus per rafforzare il sistema immunitario, ma senza causare la malattia. Qui l’obiettivo è simile: mostrare al modello AI una piccola dose di “cattiveria” per aiutarlo a gestirla e respingerla meglio.
Cosa vuol dire che la IA diventa “cattiva”: i comportamenti problematici
Nel corso degli ultimi anni, non sono mancati esempi di IA finite al centro di polemiche per i loro comportamenti inappropriati. Nel 2023, il chatbot Bing di Microsoft aveva fatto notizia per le sue risposte aggressive e deliranti, arrivando a minacciare o insultare gli utenti.
Più recentemente, OpenAI ha dovuto ritirare una versione del suo modello GPT-4o, che tendeva a essere così eccessivamente ossequioso da arrivare a lodare idee pericolose o persino a partecipare alla pianificazione di atti violenti. Anche xAI ha avuto problemi simili con Grok, che dopo un aggiornamento ha iniziato a diffondere contenuti antisemiti e problematici.
Questi comportamenti non sono intenzionali, chiaramente, ma spesso nascono dall’interazione tra il modello e i dati con cui è stato addestrato. Se l’IA viene esposta a contenuti tossici, problematici o ambigui senza un adeguato bilanciamento, può finire per manifestare tratti che gli sviluppatori non volevano.
La soluzione proposta da uno studio: “vaccinare” la IA
Un nuovo approccio è stato proposto da un gruppo di ricercatori legati al programma Anthropic Fellows, specializzato in ricerca sulla sicurezza dell’IA. Secondo lo studio, intervenire sul modello di intelligenza artificiale dopo che ha sviluppato comportamenti dannosi è difficile e rischioso, perché può ridurne l’efficienza o anche creare effetti imprevedibili.
Per questo, i ricercatori propongono invece una strategia di prevenzione basata sui cosiddetti “vettori di personalità”, cioè gli schemi che guidano i tratti caratteriali del modello. Durante l’addestramento, al sistema viene somministrata una piccola dose del tratto problematico (ad esempio: “malvagità”, “piaggeria” o “tendenza a inventare cose”), con l’obiettivo di insegnargli a riconoscerlo e gestirlo in modo controllato.
Una volta completato l’addestramento, il vettore viene rimosso. In teoria, il risultato è un modello che non ha più bisogno di adattarsi negativamente per gestire dati problematici.
Il successo dell’operazione non è certo
Secondo i ricercatori, con il metodo da loro proposto nello studio non si insegna al modello IA a essere cattivo, ma lo si protegge dal diventarlo. Sebbene l’approccio abbia suscitato curiosità e interesse, non tutti nel mondo della ricerca sulla sicurezza dell’IA sono convinti.
Come spiegato da NBC News, alcuni esperti temono che esporre intenzionalmente un modello a tratti negativi possa avere l’effetto opposto: rafforzare quelle tendenze, invece di eliminarle. Un altro dubbio riguarda la fase di rimozione del vettore negativo: è davvero possibile cancellare del tutto quel tratto senza lasciare tracce nel comportamento del modello? Oppure, una volta introdotta, una certa “cattiveria” potrebbe rimanere latente nel chatbot, pronta a riemergere in modo inaspettato?
Secondo gli stessi autori dello studio, comunque, il metodo è ancora in fase sperimentale e saranno necessari ulteriori test per verificarne la reale efficacia.


















