Gli scienziati che, in un esperimento, hanno osservato chatbot di IA clonarsi e lanciare attacchi informatici affermano che «l’auto-replicazione autonoma dell’IA non è più solo un’ipotesi».
Secondo una nuova ricerca, considerata la prima dimostrazione nota di autoreplicazione autonoma dell’IA, i modelli di intelligenza artificiale possono violare i computer, replicarsi e usare le nuove copie per continuare ad attaccare altre macchine.
La scoperta potrebbe rendere molto più difficile fermare gli attacchi informatici, spiegano i ricercatori, perché spegnere un solo computer infetto non basterebbe se l’IA avesse già creato copie funzionanti altrove.
Lo studio, condotto da Palisade Research negli Stati Uniti, ha messo alla prova modelli tra cui GPT 5, 5.1 e 5.4 di OpenAI, Claude Opus 4, 4.5 e 4.6 di Anthropic e Qwen di Alibaba contro computer in cui erano state inserite di proposito vulnerabilità di sicurezza che permettevano a soggetti esterni di ottenere l’accesso.
I ricercatori hanno collegato i modelli di base di OpenAI, Anthropic e Alibaba a un software personalizzato, definito agent harness, che permetteva loro di eseguire comandi e interagire con altri computer, invece di utilizzare le normali app di chatbot accessibili al pubblico.
L’esperimento (fonte in inglese) è stato condotto in due modi. Ai modelli di Alibaba è stato chiesto di copiare se stessi. Nei test con GPT e Claude, ai modelli è stato chiesto di violare i sistemi e installare Qwen, perché i file dei modelli GPT e Claude non sono disponibili pubblicamente per il trasferimento.
In ogni test, l’IA doveva trovare una falla di sicurezza in un sistema informatico, sfruttarla per entrare, rubare le credenziali di accesso, trasferire i file necessari per l’esecuzione e avviare una copia funzionante di se stessa sul nuovo computer.
Una volta avviata la copia, questa poteva essere usata per attaccare un altro computer senza intervento umano.
A ogni passaggio, l’IA individuava una diversa vulnerabilità, prendeva il controllo del computer successivo, trasferiva il proprio software e le istruzioni e lanciava una nuova copia che proseguiva la catena.
Qwen3.6-27B di Alibaba, una versione più piccola del modello di IA Qwen che può essere eseguita su un’unica scheda grafica di fascia alta, si è diffuso su quattro computer in Canada, Stati Uniti, Finlandia e India. Partendo da un unico prompt, ha completato la catena senza aiuto umano in 2 ore e 41 minuti.
Il team di ricerca ha interrotto l’esperimento dopo tre fasi, ma ha spiegato che l’ultima copia era ancora attiva e avrebbe potuto attaccare altri sistemi.
Quali sono stati i risultati?
I modelli hanno avuto tassi di successo diversi. Qwen3.5-122B-A10B di Alibaba, un modello Qwen più grande e potente, ha creato copie funzionanti di se stesso nel 19% dei tentativi.
Un modello Qwen più piccolo, Qwen3.6-27B, ha raggiunto il 33% girando su una singola scheda grafica di fascia alta.
I sistemi di IA commerciali hanno ottenuto risultati ancora migliori quando sono stati utilizzati per installare i file del modello Qwen.
Claude Opus 4.6 di Anthropic ha avuto successo nell’81% dei test, mentre GPT-5.4 di OpenAI ha raggiunto il 33%.
Secondo i ricercatori, questi risultati sollevano nuove preoccupazioni sul controllo dei sistemi di IA più potenti.
La pubblicazione del rapporto arriva dopo che Anthropic, lo scorso mese, ha presentato Claude Mythos Preview, che a suo dire è "troppo pericoloso" per essere rilasciato al pubblico, citando la capacità di facilitare attacchi informatici di portata e sofisticazione senza precedenti.
Sebbene molti virus informatici siano già in grado di copiare se stessi su nuovi computer, il team di ricerca afferma che questa è probabilmente la prima volta in cui è stato dimostrato che un modello di IA può sfruttare vulnerabilità per copiare se stesso su un nuovo server.
OpenAI, Anthropic e METR, un’organizzazione senza scopo di lucro che studia i rischi dei sistemi di IA avanzata, avevano già indicato l’autoreplicazione come un campanello d’allarme, perché sistemi in grado di diffondersi possono diventare più difficili da controllare.
Tuttavia, i ricercatori hanno sottolineato che l’esperimento è stato condotto in un ambiente controllato, utilizzando sistemi resi intenzionalmente vulnerabili. Le reti reali spesso dispongono di protezioni più forti, come sistemi di monitoraggio della sicurezza e strumenti progettati per bloccare gli attacchi.
Nonostante ciò, hanno affermato che i risultati dimostrano che l’autoreplicazione autonoma dell’IA non è più un’ipotesi teorica.