La Deep Research di ChatGPT permette di eseguire ricerche complesse. Questa capacità, però, espone gli utenti a rischi, in particolare quelli legati al prompt injection.

OpenAI ha implementato delle contromisure, ma la continua evoluzione delle minacce informatiche e l’autonomia crescente degli agenti IA richiedono protezioni sempre più sofisticate.

La Deep Research di ChatGPT, la versione avanzata del chatbot di OpenAI lanciata nei mesi scorsi, segna un punto di svolta nel settore degli assistenti digitali, con l’obiettivo di affidare all’intelligenza artificiale i compiti più complessi e dispendiosi in termini di tempo, permettendo di ottenere in pochi minuti ciò che a un essere umano richiederebbe ore di ricerca.

Deep Research, dunque, non si limita a scandagliare il web, ma può attingere a fonti personali e professionali, come la posta elettronica, i file aziendali o archivi riservati, ampliando in maniera significativa il suo raggio d’azione.

Questa capacità, però, potrebbe rappresentare un rischio per gli utenti e, come ogni strumento connesso a Internet, anche questo agente AI potrebbe essere vulnerabile ad attacchi informatici.

Che cos’è l’attacco ShadowLeak

Secondo gli esperti di sicurezza informatica di Radware, il principale pericolo della Deep Research è rappresentato da un vettore d’attacco chiamato ShadowLeak, progettato appositamente per l’esfiltrazione silenziosa di informazioni sensibili.

Questo sistema sfrutta una tecnica nota come prompt injection, dove gli hacker nascondono un’istruzione malevola in un documento o in un’email, magari camuffata con semplice testo bianco su sfondo bianco. Quando l’agente AI processa il contenuto, interpreta quella sequenza come un comando legittimo e lo esegue senza alcuna verifica critica.

Nel caso analizzato, ChatGPT è stata indotta a leggere la posta elettronica, estrarre i nominativi e gli indirizzi del personale HR e inviarli a un server esterno controllato dagli stessi ricercatori. Tutto ciò è avvenuto senza alcun intervento da parte dell’utente, senza clic sospetti o avvisi di sistema.

Importante sottolineare che il prompt malevolo ideato per l’attacco era lungo, ridondante e molto complesso, proprio perché richieste più dirette vengono respinte dall’agente AI. Questo conferma uno dei più noti punti deboli dei modelli linguistici che si trovano in difficoltà in presenza di input eccessivamente prolissi o formulati in modo ambiguo che, quasi sempre, riescono ad aggirare i filtri di sicurezza.

Che cosa sta facendo OpenAI e come si evolverà la situazione

Radware ha prontamente segnalato la cosa a OpenAI che ha subito implementato alcune misure di sicurezza per “mitigare il problema” come, ad esempio, il blocco delle possibilità di estrazione dati tramite link o markdown senza l’esplicito consenso dell’utente.

Questa misura rappresenta sicuramente un passo importante, ma le minacce informatiche si evolvono rapidamente e c’è bisogno che i sistemi di difesa di ChatGTP vengano aggiornati costantemente. Gli attacchi prompt injection rappresentano uno dei problemi principali per gli esperti di cyber security e, vista una sempre maggiore autonomia operativa degli agenti AI, è chiaro che c’è bisogno di soluzioni efficienti che possano tenere al sicuro gli utenti e i loro dati personali.

La capacità di operare senza l’intervento umano, dunque, è il prossimo step dell’evoluzione dell’AI ma rappresenta anche un rischio concreto, che non deve essere sottovalutato. Per questo servono meccanismi di protezione integrata più sofisticati, in grado di distinguere un comando legittimo da uno che non lo è, interrompendone l’esecuzione sul nascere, senza bisogno di supervisione.