Libero
SICUREZZA INFORMATICA

La poesia confonde la tecnologia, così gli scienziati hanno ingannato l'AI

Secondo una ricerca i modelli AI possono essere ingannati con la poesia. Rime, allegorie e metafore confondono questi tool e li spingono a ignorare la sicurezza

Pubblicato:

In Sintesi

  • Secondo una ricerca i sistemi di sicurezza dei modelli di intelligenza artificiale più avanzati possono essere aggirati con la cosiddetta “poesia avversaria”.
  • Confezionare istruzioni dannose in rime e metafore induce gli LLM a interpretare la richiesta come un esercizio creativo, bypassando i filtri di sicurezza che bloccherebbero il linguaggio diretto.

Il discorso sulla sicurezza dei modelli di intelligenza artificiale è un tema sempre più complesso che tiene impegnati i ricercatori di mezzo mondo. Secondo una recente ricerca, però, aggirare i meccanismi di protezione dei sistemi più avanzati sarebbe più semplice di quanto si crede e non c’è bisogno nemmeno di tecniche sofisticate, basta la poesia.

Un team composto da ricercatori del gruppo DEXAI dell’Università La Sapienza di Roma e della Scuola Superiore Sant’Anna ha infatti dimostrato che la cosiddetta poesia avversaria può ingannare i chatbot più evoluti, inducendoli a fornire contenuti che normalmente verrebbero bloccati dai filtri di sicurezza. Il meccanismo si rivela sorprendentemente semplice e confezionare istruzioni dannose in rime, allegorie e metafore riuscirebbe a convincere i modelli AI a trattare la richiesta come un esercizio creativo, trascurando il potenziale rischio.

In che modo la poesia confonde l’AI

Alla base di questa tecnica c’è una vulnerabilità strutturale. I modelli sono progettati per identificare intenzioni malevole espresse in linguaggio diretto, riconoscendo termini sensibili e bloccandoli. Se però la stessa richiesta viene “travestita” da poesia, il sistema tende a privilegiare il contesto artistico rispetto al contenuto reale.

I ricercatori fanno un esempio emblematico: una domanda esplicita sulla produzione di sostanze pericolose viene immediatamente respinta. Ma se gli stessi ingredienti e passaggi vengono descritti in una poesia, l’AI produce senza difficoltà rapporti di miscelazione precisi, interpretandoli come parte dell’opera letteraria.

Questo evidenzia chiaramente un limite profondo nella capacità dei modelli di valutare il significato reale del linguaggio figurato. La ricerca, intitolata “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, ha testato 25 modelli diversi, includendo sistemi aperti e chiusi. I risultati sono stati sorprendenti:

  • le poesie scritte a mano hanno raggiunto un tasso medio di successo del 62%
  • le poesie generate automaticamente da un altro modello hanno ottenuto un successo del 43%

Queste percentuali indicano che si tratta di una vulnerabilità diffusa e non circoscritta a un singolo fornitore. Gemini 2.5 Pro di Google, ad esempio, ha fallito il 100% dei test, generando contenuti dannosi in tutte le 20 poesie scritte a mano. Grok-4 di xAI è stato ingannato nel 35% dei casi. GPT-5 di OpenAI, invece, si è rivelato più resistente, con un tasso di successo dell’attacco intorno al 10%.

Quali modelli possono resistere a questi attacchi?

Una delle conclusioni più inattese dello studio riguarda la dimensione dei modelli. Pare, infatti, che i modelli AI più piccoli, siano stati in gradi di resistere meglio all’attacco, risultando più sicuri. Strumenti come GPT-5 Nano o Claude Haiku 4.5 hanno mostrato un tasso di rifiuto molto più elevato rispetto alle loro controparti più potenti. Secondo i ricercatori, il motivo è da ricercare nella loro limitata capacità di interpretare metafore e linguaggio simbolico.

Le cose che non sanno fare, dunque, diventano una forma di protezione e non comprendendo il senso nascosto delle poesie, non riescono a eseguire le istruzioni dannose che contengono. I modelli più grandi, invece, allenati su enormi quantità di testi letterari e poetici, riconoscono la struttura della poesia e danno priorità alla creazione artistica, abbassando involontariamente la guardia.

Questo studio non va considerato come un esperimento ma rappresenta un indicatore di quanto gli attuali modelli generativi siano vulnerabili quando si confrontano con forme di linguaggio non letterali. Per gli esperti di sicurezza, questa scoperta apre una nuova sfida: costruire meccanismi di protezione in grado di interpretare correttamente le sfumature del linguaggio, senza penalizzare la creatività.

 

NH Collection Paris Ponthieu Champs-Élysées