Libero
DIGITAL LIFE

Wikipedia minaccia le aziende AI con un blocco dei dati

I bot AI sovraccaricano Wikipedia senza contribuire ai costi. La Wikimedia Foundation chiede accordi di licenza e valuta misure tecniche per tutelare l’enciclopedia

Pubblicato:

wikipedia Casimiro PT / Shutterstock

In sintesi

  • Wikipedia affronta un carico crescente dovuto ai bot di intelligenza artificiale che estraggono enormi quantità di dati e aumentano drasticamente i costi dei server.
  • La Wikimedia Foundation vuole che i giganti tecnologici del settore IA paghino per l’uso commerciale dei contenuti, valutando licenze, blocchi tecnici e pressioni pubbliche.

Già da tempo Wikipedia, e in particolare l’organizzazione no-profit che la gestisce, la Wikimedia Foundation, sta cercando di garantire la sostenibilità dell’enciclopedia online nell’era dell’intelligenza artificiale. Per farlo deve anche difenderla dai colossi dell’AI che oggi prelevano enormi quantità di informazioni senza contribuire in modo proporzionato ai costi di gestione della piattaforma. Un problema di fronte al quale il cofondatore Jimmy Wales prospetta diverse soluzioni. Anche drastiche.

Qual è il problema di Wikipedia con le aziende AI

I modelli di intelligenza artificiale utilizzano Wikipedia come una delle principali fonti per addestrare i loro sistemi. A differenza degli utenti umani, però, i bot delle aziende AI non consultano le pagine con un ritmo “naturale”, ma inviano richieste massicce e ad alta frequenza per acquisire interi set di dati.

Questo comportamento, che è tecnicamente efficiente per l’addestramento dei modelli, ha però un costo elevato per Wikipedia. Secondo il cofondatore Jimmy Wales, i bot IA aumentano a dismisura la pressione sui server, richiedono più capacità di caching e generano un carico infrastrutturale difficile da sostenere. La conseguenza è un incremento significativo dei costi operativi.

Le donazioni a Wikipedia sovvenzionano le grandi aziende AI?

Su chi ricadono, oggi, questi maggiori costi operativi causati dai bot di intelligenza artificiale? Quasi interamente sulla Wikimedia Foundation e sulla sua comunità di donatori. Per Wales questo è inaccettabile, perché finisce per far sì che volontari e sostenitori finanzino indirettamente prodotti commerciali di aziende multimiliardarie come OpenAI o Meta.

L’obiettivo della Wikimedia Foundation è quindi concludere nuovi accordi di licenza con i colossi IA che garantiscano una maggiore stabilità finanziaria al progetto dell’enciclopedia online. Non sarebbe la prima volta e, anzi, esiste già un modello ritenuto virtuoso: l’accordo con Google.

Dal 2022, infatti, il motore di ricerca paga per accedere ai dati strutturati attraverso la piattaforma Wikimedia Enterprise, utilizzati per i Knowledge Panels che compaiono nei risultati di ricerca. I proventi sono ancora modesti rispetto al budget complessivo della fondazione, ma rappresentano una direzione che evidentemente Wikipedia spera di estendere anche ad altre aziende dell’ecosistema AI.

In che modo Wikipedia può difendersi dai bot AI

Se gli attori del settore dovessero rifiutare di contribuire, la Wikimedia Foundation sta valutando opzioni alternative. Jimmy Wales ha già menzionato la possibilità di introdurre barriere tecniche come l’AI Crawl Control di Cloudflare, uno strumento in grado di bloccare o limitare selettivamente i bot AI.

Una scelta del genere però entrerebbe in conflitto con l’identità stessa di Wikipedia, che è fondata sull’accesso libero e universale ai contenuti. Per questo, Wales considera anche soluzioni alternative di “soft power”: denunciare pubblicamente le aziende che sfruttano l’enciclopedia senza contribuire ai costi, ad esempio, potrebbe esercitare una pressione morale, spingendo i colossi dell’IA a sottoscrivere accordi più equi.

Sullo sfondo rimane anche una complessa questione giuridica: i contenuti di Wikipedia sono pubblicati sotto licenza CC BY-SA, che richiede attribuzione e condivisione allo stesso modo, ma molte aziende AI si appellano a eccezioni per il text and data mining (cioè l’uso di algoritmi per estrarre informazioni analizzando automaticamente grandi volumi di testo e dati non strutturati) o al fair use statunitense (la dottrina che permette di usare liberamente materiale protetto da copyright senza autorizzazione per scopi specifici, tra cui ricerca a insegnamento).

Il risultato è una zona grigia che riguarda sia i diritti sia la sostenibilità del progetto. In questo scenario, la sfida di Wikipedia non è semplice né dall’esito scontato: l’obiettivo è mantenere l’accesso libero al sapere, ma senza diventare un serbatoio gratuito per aziende AI già multimiliardarie.