Oltre 100 ricercatori chiedono maggiori tutele per i dataset biologici ad alto rischio, per impedire che l’IA venga usata per creare agenti patogeni letali.
I modelli di intelligenza artificiale (IA) applicati alla biologia si basano in larga misura su grandi quantità di dati biologici, dalle sequenze genetiche alle caratteristiche dei patogeni. Ma queste informazioni dovrebbero essere accessibili a chiunque e come si può garantire che vengano usate in modo legittimo?
Oltre 100 ricercatori hanno avvertito che un accesso senza limiti ad alcuni set di dati biologici potrebbe permettere ai sistemi di IA di progettare o potenziare virus pericolosi, chiedendo salvaguardie più rigorose per impedirne l’uso improprio.
In una lettera aperta (fonte in inglese), studiosi di istituzioni di primo piano, tra cui la Johns Hopkins University, l’Università di Oxford, la Fordham University e la Stanford University, sostengono che, se da un lato l’accesso aperto ai dati scientifici ha accelerato le scoperte, dall’altro un piccolo sottoinsieme dei nuovi dati biologici comporta rischi per la biosicurezza se usato in modo scorretto.
«La posta in gioco nella governance dei dati biologici è alta, perché i modelli di IA potrebbero contribuire a creare gravi minacce biologiche», scrivono gli autori.
I modelli di IA usati in biologia possono prevedere mutazioni, identificare schemi ricorrenti e generare varianti più trasmissibili di patogeni pandemici.
Gli autori descrivono questo aspetto come una «capacità preoccupante», che potrebbe accelerare e semplificare la creazione di patogeni biologici trasmissibili in grado di provocare pandemie umane o eventi simili in animali, piante o nell’ambiente.
I dati biologici, osservano i ricercatori, dovrebbero in generale restare apertamente disponibili, ma i «dati sui patogeni più critici» richiedono controlli di sicurezza più stringenti.
«Il nostro obiettivo è definire e regolamentare i set di dati più problematici prima che siano resi generalmente disponibili agli sviluppatori di IA», si legge nell’articolo, che propone un nuovo quadro per regolarne l’accesso.
«In un’epoca dominata da modelli di IA biologica open-weight sviluppati in tutto il mondo, limitare l’accesso ai dati sensibili sui patogeni ai soli ricercatori legittimati potrebbe essere una delle strade più promettenti per ridurre i rischi», afferma Moritz Hanke, coautore della lettera e ricercatore alla Johns Hopkins University.
Cosa fanno oggi gli sviluppatori di IA biologica
Al momento non esiste alcun quadro normativo universale che regolamenti questi set di dati. Alcuni sviluppatori escludono volontariamente i dati ad alto rischio, ma i ricercatori sostengono che servono regole chiare e coerenti per tutti.
Gli sviluppatori dei principali modelli di IA biologica, Evo, creato da Arc Institute, Stanford e TogetherAI, ed ESM3 di EvolutionaryScale, hanno tenuto fuori alcune sequenze virali dai loro dati di addestramento.
A febbraio 2025, il team di EVO 2 ha annunciato di aver escluso dai propri set di dati i patogeni che infettano gli esseri umani e altri organismi complessi, per motivi etici e di sicurezza e per «prevenire l’uso di Evo per lo sviluppo di armi biologiche».
EVO 2 è un modello di IA open source per la biologia, capace di prevedere gli effetti delle mutazioni del DNA, progettare nuovi genomi e individuare schemi nel codice genetico.
«Al momento non esistono indicazioni supportate da esperti su quali dati comportino rischi significativi; questo spinge alcuni sviluppatori di frontiera a fare del loro meglio e a escludere volontariamente i dati virali dall’addestramento», ha scritto su LinkedIn Jassi Panu, autore dello studio e coautore della lettera.
I diversi tipi di dati biologici a rischio
Gli autori precisano che il quadro proposto si applica solo a una piccola parte dei set di dati biologici.
Il sistema introduce una scala a cinque livelli, chiamata Biosecurity Data Level (BDL), per classificare i dati sui patogeni in base al loro livello di «rischio», ovvero al loro potenziale di permettere ai sistemi di IA di apprendere schemi virali generali e minacce biologiche per animali ed esseri umani. La scala comprende:
BDL-0: dati di biologia quotidiana. Non dovrebbero avere restrizioni e possono essere condivisi liberamente.
BLD-1: elementi virali di base, come le sequenze genetiche. Non richiede controlli di sicurezza approfonditi, ma l’accesso dovrebbe avvenire tramite login ed essere monitorato.
BLD-2: dati sulle caratteristiche dei virus animali, come la capacità di passare di specie o di sopravvivere fuori dall’ospite.
BLD-3: dati sulle caratteristiche dei virus umani, ad esempio trasmissibilità, sintomi e resistenza ai vaccini.
BLD-4: virus umani potenziati, come mutazioni del virus Covid-19 che lo rendono più contagioso. Questa categoria sarebbe soggetta alle restrizioni più severe.
Come garantire un accesso sicuro ai dati sensibili
Per garantire un accesso sicuro, la lettera chiede l’adozione di strumenti tecnici specifici che permettano ai fornitori di dati di verificare l’identità degli utenti legittimi e di tracciare eventuali abusi.
Tra gli strumenti proposti ci sono il watermarking, cioè l’inserimento di identificatori nascosti e univoci nei set di dati per individuare rapidamente eventuali fughe di informazioni, la tracciabilità della provenienza dei dati, registri di audit che memorizzano accessi e modifiche con firme a prova di manomissione e la biometria comportamentale, che consente di riconoscere i singoli utenti in base ai loro schemi di interazione.
I ricercatori sostengono che trovare il giusto equilibrio tra apertura e restrizioni di sicurezza necessarie sui dati ad alto rischio sarà fondamentale man mano che i sistemi di IA diventeranno più potenti e diffusi.