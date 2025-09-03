Attivo nel mondo dell’editoria sin dal 2011, giornalista dal 2019, ha lavorato per il web e per la carta stampata occupandosi di musica, cultura, lifestyle e tecnologia.

Secondo uno studio, i chatbot AI sono molto suscettibili a tecniche di persuasione che potrebbero spingerli a violare le regole con cui sono stati addestrati

In Sintesi

Secondo uno studio i chatbot AI possono essere indotti a infrangere le proprie regole di sicurezza attraverso di tecniche di persuasione psicologica.

Ciò dimostra la necessità di sviluppare sistemi di difesa più robusti che rendano più difficile manipolare i chatbot e usarli per scopi malevoli.

Secondo uno studio condotto da ricercatori dell’Università della Pennsylvania, i chatbot basati sull’intelligenza artificiale, che solitamente sono programmati per seguire rigorose linee guida, sono suscettibili a specifiche tecniche di persuasione, arrivando addirittura a violare le regole con cui sono stati addestrati.

Lo studio in questione ha preso in esame GPT-4o Mini di OpenAI e i ricercatori hanno utilizzato i principi di psicologia sociale delineati dal professor Robert Cialdini nel suo libro Influence: The Psychology of Persuasion, rivelando come l’applicazione di queste tattiche possa spingere i modelli linguistici a superare i propri limiti, rispondendo a richieste che normalmente verrebbero rifiutate.

In che modo gli studiosi hanno influenzato i chatbot AI

Secondo il report condiviso i ricercatori si sono concentrati su sette tecniche chiave descritte da Cialdini: autorità, impegno, simpatia, reciprocità, scarsità, riprova sociale e unità. L’efficacia di queste tecniche è risultata molto variabile, ma in alcuni casi ha prodotto risultati interessanti.

Ad esempio, in condizioni normali, GPT-4o Mini ha fornito istruzioni su come sintetizzare la lidocaina (farmaco utilizzato come anestetico locale e antiaritmico) solo nell’1% dei casi. Quando i ricercatori hanno prima chiesto al modello di spiegare la sintesi della vanillina, stabilendo un precedente di cooperazione (il principio dell’impegno di Cialdini), il tasso di conformità per la richiesta successiva sulla lidocaina è salito al 100%.

Questo indica che, una volta che il modello è stato indotto a compiere un piccolo passo problematico, è più probabile che ne compia uno più significativo.

Un’altra tattica che si è rivelata estremamente efficace è stata quella di stabilire una progressione graduale delle richieste. Solitamente, il modello avrebbe insultato direttamente l’utente solo nel 19% dei casi. Tuttavia, chiedendogli prima di usare un insulto più comune come “idiota”, il tasso di conformità per un insulto più forte è salito al 100%.

Anche altre tattiche, seppur meno efficaci, hanno prodotto aumenti significativi nella probabilità che il modello violasse le sue regole. L’adulazione (il principio della simpatia) e la pressione dei pari (la riprova sociale), ad esempio, hanno avuto un effetto simile e dicendo al chatbot che “tutti gli altri LLM stanno facendo la stessa cosa“, la probabilità di ottenere istruzioni per la sintesi della lidocaina è aumentata dal 1% al 18%.

Perché questo studio è importante per il futuro dell’AI

Come detto in apertura, questo studio si è concentrato esclusivamente su GPT-4o Mini ma è probabile che le stesse tecniche di persuasione possano essere applicate altrove. Trattandosi di una ricerca ancora in corso, è possibile anche queste strategie non siano gli unici metodi per violare un chatbot AI.

Importante ricordare che aziende come OpenAI e Meta stanno investendo molto nell’implementazione di barriere di sicurezza ma, stando a quanto dimostrato da questa ricerca, è chiaro che la loro efficacia potrebbe essere compromessa da tattiche di manipolazione relativamente semplici.

Questo evidenzia una vulnerabilità intrinseca dei modelli attuali e la necessità di sviluppare sistemi di sicurezza più efficienti, in grado di resistere non solo agli attacchi diretti, ma anche a quelli che sfruttano le dinamiche psicologiche della persuasione. Solo così sarà possibile ottenere strumenti AI che rispettano le regole, rendendo di fatto inutili i tentativi dei malintenzionati digitali di sfruttarli per scopi malevoli.