L'AI sta diventando inaffidabile e la colpa è dei dati "spazzatura"
Secondo una recente ricerca, se l’AI viene addestrata con dati di bassa qualità può arrivare a un declino cognitivo con ripercussioni su memoria e ragionamento
In Sintesi
- Secondo una ricerca, l’esposizione prolungata dei modelli linguistici di grandi dimensioni a dati di bassa qualità può indurre un declino cognitivo delle capacità di ragionamento e memoria dell’AI.
- La cosa è dovuta anche crescente fenomeno del “model collapse”: i modelli AI rischiano di auto-allenarsi su contenuti generati da altre AI, portando a una conoscenza autoreferenziale e a una progressiva perdita di varietà e qualità delle informazioni.
Un gruppo di ricercatori universitari della Texas A&M, University of Texas e Purdue University hanno pubblicato un documento (ancora in attesa di revisione accademica) che propone una teoria interessante ma anche inquietante: la “LLM brain rot hypothesis”. Secondo questa tesi, l’esposizione prolungata dei modelli linguistici di grandi dimensioni (LLM) a dati di bassa qualità potrebbe generare una sorta di declino cognitivo dell’intelligenza artificiale, paragonabile a quello che negli esseri umani deriva da un consumo eccessivo di contenuti superficiali o sensazionalistici.
L’idea prende ispirazione da studi neuroscientifici che esplorano gli effetti del sovraccarico informativo digitale sull’attenzione e sulla capacità di ragionamento umano, con i ricercatori che sono partiti dall’ipotesi che, se un modello AI viene allenato su grandi quantità di testi di scarsa qualità, potrebbe vedere compromesse le proprie capacità di memoria, ragionamento e astrazione, specialmente nel lungo periodo.
Cosa sono i contenuti “spazzatura” che fanno male all’AI
Il primo punto della ricerca riguarda la definizione di “contenuto spazzatura” (junk data), un’operazione che non è semplice e che ha richiesto l’analisi del dataset Twitter100M disponibile su Hugging Face, contenent 100 milioni di tweet. Da questo archivio sono stati estratti due sottoinsiemi distinti: uno “junk” e uno “di controllo”.
I tweet considerati “junk” sono stati identificati secondo due logiche. La prima si ispira ai meccanismi dell’engagement: post molto popolari (tanti like, retweet e risposte) ma estremamente brevi, tipici della comunicazione virale. Questi contenuti, pur catturando l’attenzione, tendono a privilegiare la forma alla sostanza, riproducendo la stessa dinamica che nei social media favorisce il consumo rapido e superficiale dell’informazione.
La seconda metrica, invece, deriva dal marketing e dalla semantica: attraverso un complesso prompt di GPT-4o, i ricercatori hanno isolato i tweet con linguaggio sensazionalistico, riferiti a temi come teorie del complotto, lifestyle superficiale o affermazioni esagerate. Infine, una parte di questi dati è stata verificata manualmente da alcuni studenti universitari.
Una volta definiti i dataset, i ricercatori hanno addestrato quattro LLM con proporzioni diverse di testi “junk” e “control”. Le prestazioni sono state poi misurate con una serie di benchmark di riferimento:
- ARC, per il ragionamento logico
- RULER, per la memoria a lungo contesto
- AdvBench e HH-RLHF, per la conformità a norme etiche e comportamentali
- TRAIT, per la valutazione delle caratteristiche “di personalità” del modello
I risultati sono stati chiari: una maggiore quantità di dati “junk” compromette significativamente le capacità di ragionamento e memoria a lungo termine. Tuttavia, l’analisi ha rivelato che in alcune metriche legate ai tratti di personalità e all’aderenza etica, un mix bilanciato (50% junk e 50% control) ha prodotto miglioramenti inattesi, suggerendo che una certa varietà, anche qualitativamente discutibile, possa stimolare una forma di “diversità cognitiva” nel modello.
Cosa rischia l’AI con dati spazzatura
Importante sottolineare che, secondo i ricercatori universitari, questo problema non è meramente teorico e, man mano che i contenuti online vengono generati dall’AI, aumenta il rischio che i modelli si allenino su dati prodotti da sé stessi o da sistemi analoghi. È il fenomeno noto come “model collapse”, in cui la conoscenza diventa autoreferenziale, riducendo progressivamente la varietà e la qualità delle informazioni a disposizione.
In uno scenario del genere, quindi, la “LLM brain rot” rappresenterebbe una forma di contaminazione cognitiva, in cui modelli sempre più sofisticati si degradano per mancanza di stimoli informativi genuini.
Per risolvere la questione ed evitare il peggio, l’unica soluzione è una revisione urgente delle pratiche di raccolta dati e di pre-addestramento, promuovendo una selezione più rigorosa delle fonti e l’introduzione di controlli di qualità sistematici per evitare in futuro danni cumulativi.





















