Libero
INTELLIGENZA ARTIFICIALE

I media e la politica possono condizionare un'intelligenza artificiale?

Uno studio pubblicato su Nature sostiene che i modelli AI possano assorbire indirettamente i bias dei media controllati dagli Stati. Ecco cosa hanno scoperto i ricercatori.

Pubblicato:

Un robot AI in politica iStock
  • Uno studio pubblicato su Nature segnala che media e controllo politico possono influenzare indirettamente le risposte delle intelligenze artificiali.
  • La ricerca trova milioni di documenti in cinese simili ai media statali e mostra risposte dei modelli più favorevoli alla Cina in cinese.
  • Gli autori chiedono più trasparenza sui dataset e avvertono che il fenomeno interessa Paesi con minore libertà di stampa.

Un nuovo studio pubblicato sulla rivista scientifica Nature sostiene che il controllo dell’informazione da parte dei governi possa influenzare indirettamente il comportamento delle intelligenze artificiali generative. Secondo i ricercatori, i grandi modelli linguistici come ChatGPT o Claude non apprendono da un internet “neutrale”, ma da contenuti prodotti all’interno di specifici contesti politici e mediatici. Questo potrebbe tradursi in risposte più favorevoli ai governi nei Paesi in cui la libertà di stampa è maggiormente limitata.

La ricerca, pubblicata nel 2026 e coordinata da studiosi provenienti da Princeton University, New York University e University of Oregon, analizza sei studi collegati tra loro per comprendere in che modo i media controllati dagli Stati possano lasciare tracce nei dataset utilizzati per addestrare le AI.

Lo studio sui modelli linguistici e i media controllati dagli Stati

Uno degli elementi centrali del lavoro riguarda il caso della Cina. I ricercatori hanno analizzato grandi dataset open source derivati da Common Crawl, un archivio di contenuti web spesso utilizzato per l’addestramento dei modelli linguistici.

Secondo lo studio, oltre 3,1 milioni di documenti in lingua cinese presenti in uno dei dataset esaminati contenevano formulazioni molto simili a quelle dei media coordinati dallo Stato cinese. La quota rappresentava circa l’1,64% del corpus in lingua cinese, con una presenza circa quaranta volte superiore rispetto ai contenuti provenienti da Wikipedia in cinese. Nei documenti che parlavano di istituzioni o leader politici, la percentuale arrivava fino al 23%.

Gli autori sostengono inoltre che gran parte di questi contenuti non provenisse direttamente da siti governativi o organi di stampa ufficiali. Solo una parte relativamente ridotta risultava infatti collegata a domini identificabili come media statali. Questo suggerirebbe una diffusione più ampia attraverso blog e aggregatori.

Le differenze tra le risposte in inglese e in cinese

La ricerca include anche test effettuati direttamente sui modelli linguistici. In uno degli esperimenti, i ricercatori hanno aggiunto contenuti riconducibili ai media coordinati dallo Stato cinese durante la fase di addestramento di un modello open source basato su Llama 2.

Dopo questa modifica, il modello tendeva a produrre risposte più favorevoli al governo cinese quando riceveva domande in lingua cinese su politica e leadership del Paese. L’effetto risultava più evidente in cinese rispetto all’inglese.

Gli studiosi hanno poi cercato segnali simili anche nei modelli commerciali. Secondo i test riportati nello studio, le stesse domande poste in cinese e in inglese a chatbot commerciali producevano talvolta risposte differenti. In diverse valutazioni umane, le risposte generate in cinese venivano considerate più favorevoli alle istituzioni cinesi rispetto alle versioni in inglese.

Lo studio sostiene che il fenomeno non riguardi esclusivamente la Cina. In un audit condotto su 37 Paesi, i ricercatori hanno osservato che i modelli linguistici tendevano a produrre risposte più favorevoli ai governi nei contesti caratterizzati da una minore libertà di stampa.

Il tema riguarda anche il futuro dell’AI

Gli autori precisano che non esistono prove del fatto che i governi abbiano deliberatamente costruito questi ecosistemi mediatici con l’obiettivo di influenzare l’intelligenza artificiale. Allo stesso tempo, sottolineano che la crescente diffusione dei chatbot potrebbe aumentare l’interesse strategico verso il controllo delle informazioni che finiscono online.

Secondo i ricercatori, il problema riguarda anche il contesto politico e mediatico che produce i dati utilizzati per addestrare i modelli linguistici.

Per questo motivo, il lavoro pubblicato su Nature insiste anche sulla necessità di maggiore trasparenza riguardo ai dataset utilizzati dalle aziende AI. Una parte consistente dei sistemi commerciali resta infatti opaca sia sui contenuti impiegati per l’addestramento sia sui processi di selezione delle fonti.

FAQ

Cosa afferma lo studio pubblicato su Nature?

Che i contenuti mediatici controllati dai governi possono influenzare indirettamente le risposte delle AI generative.

Quale caso nazionale è analizzato nello studio?

Lo studio esamina in dettaglio il caso della Cina, con milioni di documenti in cinese che riflettono media statali.

In che modo i dataset influenzano i modelli linguistici?

I dataset contaminati da contenuti coordinati politicamente possono orientare le risposte dei modelli verso posizioni favorevoli al governo.

Lo studio riguarda solo la Cina?

No, un audit su 37 Paesi mostra che l'effetto si osserva soprattutto dove la libertà di stampa è minore.

Qual è la raccomandazione principale degli autori?

Chiedono maggiore trasparenza sulle fonti e sui dataset usati dalle aziende che addestrano i modelli AI.