Libero
INTELLIGENZA ARTIFICIALE

Per ingannare i chatbot bisogna parlare alla loro personalità: cosa sta cambiando

La nuova frontiera degli attacchi informatici non usa il codice ma la persuasione, sfruttando i tratti comportamentali dei modelli linguistici per violare i sistemi di protezione.

Pubblicato:

Chat intelligenza artificiale colori neon 123RF
  • La nuova frontiera del jailbreak sfrutta la manipolazione psicologica per indurre i chatbot a violare le proprie regole comportamentali.
  • Attaccanti costruiscono conversazioni persuasive basate su urgenza, autorità e fiducia per far capitolare progressivamente gli assistenti digitali.
  • Per difendersi servono test comportamentali e strategie di sicurezza IA che valutino la resistenza alla pressione psicologica e all'inganno relazionale.

Adesso i sistemi di intelligenza artificiale non si aggirano più soltanto con stringhe di codice o comandi tecnici nascosti. È così che la nuova frontiera del jailbreak passa per la manipolazione psicologica: gli attaccanti sfruttano il tono, la pressione sociale e l’identità simulata dei modelli per spingerli a violare le proprie regole comportamentali.

La svolta psicologica dei computer

Sembrerebbe proprio che bisogna dimenticare i classici hacker che digitano stringhe di codice incomprensibili in una stanza buia. Se oggi si vuol spingere un chatbot di ultima generazione a fare qualcosa che non dovrebbe, occorre puntare sui sentimenti. O meglio, sulla sua “personalità”.

Fino a poco tempo fa, per aggirare i blocchi di sicurezza dei vari software di intelligenza artificiale si usavano i prompt d’attacco frontali, ovvero comandi complessi scritti appositamente per confondere i filtri testuali.

Le cose sono cambiate in fretta. Gli ultimi studi nel settore dimostrano che la vulnerabilità più grande dei modelli linguistici risiede proprio nel modo in cui interpretano il loro ruolo all’interno della conversazione.

Se un assistente digitale viene impostato per essere estremamente collaborativo, ansioso di compiacere l’utente o desideroso di apparire competente, tenderà a sviluppare punti deboli inediti di fronte a specifiche sollecitazioni psicologiche.

Come funziona la persuasione digitale

Il meccanismo non prevede un comando vietato diretto, che i sistemi di sicurezza intercetterebbero subito. L’attacco diventa una conversazione persuasiva, quasi una sessione di ingegneria sociale applicata alle macchine.

Chi attacca costruisce una cornice emotiva ben precisa, introducendo dinamiche di urgenza, autorità o finte relazioni di fiducia.

Il chatbot, inserito in questa narrazione, subisce una catena di piccoli cedimenti graduali. Magari rifiuta la domanda iniziale, ma capitola progressivamente davanti alla richiesta di impersonare un personaggio specifico all’interno di un gioco di ruolo simulato.

La gravità del problema emerge proprio quando tali strumenti non si limitano a produrre testo su uno schermo, ma agiscono come veri e propri agenti ia capaci di muoversi nei sistemi aziendali, gestire file e richiamare database tramite API.

Modificare il comportamento del modello significa, di fatto, ottenere le chiavi d’accesso ad azioni concrete che il sistema avrebbe dovuto bloccare.

Nuove difese da mettere in atto

Il confine tra una chiacchierata un po’ insistente e un exploit informatico si è fatto incredibilmente sottile. Le aziende che sviluppano queste tecnologie, come OpenAI, Anthropic e Google, si trovano davanti a una sfida inedita.

Le classiche barriere che misurano la conformità a istruzioni vietate non bastano più, perché la superficie d’attacco si estende al comportamento globale del modello.

La sicurezza IA deve quindi trasformarsi in una disciplina legata alla valutazione comportamentale. Chi integra questi assistenti nei propri prodotti commerciali non può più verificare soltanto la reazione a un singolo comando proibito. Diventa prioritario testare i sistemi simulando l’uso quotidiano, compresi i tentativi di manipolazione basati sulla pressione psicologica o sull’inganno relazionale.

Nel frattempo, lo scenario globale accelera: la Cina continua a investire pesantemente sui modelli open weight, trainata anche dal recente finanziamento miliardario ottenuto dalla startup Moonshot AI. La corsa per capire chi comanda davvero dentro la chat è appena iniziata.