Perché gli editori di notizie bloccano l’IA dagli archivi di Internet

Una persona che legge un giornale del New York Times - Diritti d'autore Beyzanur K. /Pexels

Diritti d'autore Beyzanur K. /Pexels

Pubblicato il 01/05/2026 - 16:24 CEST

L’uso di contenuti d’archivio da parte delle aziende di IA potrebbe costituire una grave violazione del diritto d’autore, soprattutto mentre sono in corso cause legali contro società come OpenAI e Perplexity.

Circa 245 organizzazioni di informazione a livello globale in nove Paesi stanno cercando di bloccare i crawler dell'Internet Archive. Si tratta di bot software automatici che catturano, mostrano e archiviano i contenuti delle pagine web nell'interfaccia pubblica dell'Archive, la Wayback Machine.

L'Archive conserva oltre mille miliardi di pagine web, a partire dal 1996, il che lo rende una delle più grandi risorse collettive di informazione pubblica al mondo. Tra queste ci sono anche vecchi articoli di grandi testate come CNN, The New York Times, The Guardian e USA Today.

Queste pagine web vengono utilizzate per vari scopi. Per esempio come fonti primarie per gli storici o per dimostrare le modifiche apportate dopo la pubblicazione.

Diverse organizzazioni di informazione spingono ora per bloccare i crawler, perché le aziende di IA stanno usando i contenuti dell'Archive per addestrare grandi modelli linguistici (LLM) senza offrire un compenso equo o ottenere un'autorizzazione.

Più di 20 grandi testate bloccano già ia_archiverbot, il principale crawler web che l'Internet Archive usa per la Wayback Machine, secondo un'analisi della società di rilevazione di IA Originality AI.

Almeno uno dei quattro bot di scansione dell'Archive è però bloccato da 241 siti di informazione in tutto il mondo. Una parte consistente di questi siti bloccati appartiene a USA Today Co, il maggiore editore di quotidiani degli Stati Uniti. Questo significa che centinaia di testate locali sono state di fatto rimosse dai registri storici.

I rischi dell'uso dei contenuti d'archivio per addestrare l'IA

I contenuti giornalistici d'archivio offrono enormi quantità di testi e immagini di alta qualità per addestrare su larga scala i modelli di IA, rendendo la loro scrittura più simile a quella umana. Questi dati sono accessibili tramite URL e interfacce API, che permettono a software diversi di comunicare tra loro e richiedere dati, fungendo da ponte tra i sistemi.

Questo rende ancora più semplice per le aziende di IA accedere ai dati archiviati e usarli per addestrare i modelli.

Un altro vantaggio è che i contenuti presenti nell'Internet Archive sono già strutturati, attribuiti e datati.

Gran parte dei dati dell'Internet Archive è già stata rintracciata nei principali insiemi di dati utilizzati per l'addestramento dell'IA. Per le organizzazioni di informazione questo rappresenta però un grave punto debole, dato che stanno già facendo causa a società come Perplexity e OpenAI per potenziali violazioni del diritto d'autore.

«Il problema è che i contenuti del Times presenti nell'Internet Archive vengono usati dalle aziende di IA in violazione della legge sul diritto d'autore per competere direttamente con noi», ha dichiarato Graham James, portavoce del quotidiano The New York Times, citato da The Next Web.

«Il Times investe enormi risorse nella produzione di giornalismo originale e quel lavoro non dovrebbe essere utilizzato senza il nostro permesso».

Altre organizzazioni, come The Guardian, hanno adottato un approccio più prudente, limitando l'accesso dell'Archive invece di bloccarlo completamente.

L'Internet Archive sostiene di essere un «danno collaterale»

Il direttore della Wayback Machine, Mark Graham, sostiene che l'Archive è soltanto un «danno collaterale» e che i veri responsabili sono le aziende di IA che accedono ai contenuti passati tramite le interfacce dell'Archive.

L'Archive ha però adottato alcune misure proprie per limitare questo fenomeno. Tra queste, impedire il download massiccio di materiali da alcuni siti e, in certi casi, limitare l'estrazione automatica dei dati.

Graham ha sottolineato che l'Archive rappresenta uno strumento fondamentale di conservazione. Senza questo servizio, gli articoli che non vengono archiviati possono essere modificati senza autorizzazione e senza alcuna responsabilità. Si può intervenire su tutto: cambiare o rimuovere citazioni, correggere errori o deviare rivendicazioni e dichiarazioni ufficiali.

Al momento queste modifiche vengono tracciate dalla Wayback Machine.

Questo ha spinto alcune organizzazioni di informazione a cercare di collaborare con l'Internet Archive per trovare compromessi accettabili o soluzioni alternative, che prevedano un accesso limitato invece di blocchi rigidi.

Allo stesso modo, l'organizzazione non profit per i diritti digitali Fight for the Future ha lanciato una petizione, già firmata da 100 giornalisti in attività, per protestare contro questi blocchi. L'iniziativa arriva in un momento in cui i registri pubblici e la stessa storia sono sempre più oggetto di contestazione.

Vai alle scorciatoie di accessibilità

Perché gli editori di notizie bloccano l’IA dagli archivi di Internet

L’uso di contenuti d’archivio da parte delle aziende di IA potrebbe costituire una grave violazione del diritto d’autore, soprattutto mentre sono in corso cause legali contro società come OpenAI e Perplexity.

I rischi dell'uso dei contenuti d'archivio per addestrare l'IA

L'Internet Archive sostiene di essere un «danno collaterale»

Notizie correlate

Alphabet, la casa madre di Google: profitti in rialzo dell'81% tra le Big Tech

Rapporto: la Mistral, principale azienda europea di IA, veicola propaganda russa

Corsa della Cina a militarizzare l'IA: la chiave per lo status di potenza globale

Prix Versailles premia gli aeroporti più belli del mondo

Albania all'UE: il progetto legato a Kushner rispetterà l'ambiente

Dentro una delle crociere più popolari al mondo in Europa

Ondata di caldo africano investe la Germania

Capitali della cocaina: dove cresce di più l’uso in Europa?