I cosiddetti attacchi di distillazione raccolgono le risposte dei modelli di intelligenza artificiale per addestrare modelli più piccoli e leggeri.
Mentre Stati Uniti e Cina si sfidano nella corsa allo sviluppo dell’intelligenza artificiale (IA), la statunitense Anthropic è l’ultima azienda a lanciare l’allarme: secondo il gruppo, società cinesi di IA starebbero rubando la tecnologia che potrebbe decidere chi vincerà questa competizione.
Secondo Anthropic, DeepSeek, Moonshot AI e MiniMax avrebbero generato in segreto oltre 16 milioni di conversazioni con il chatbot Claude, usando più di 24.000 account falsi, per sfruttarne le capacità e addestrare modelli concorrenti.
Anche OpenAI e Google hanno denunciato questo mese accuse simili contro società cinesi, alimentando i timori che la Cina stia aggirando anni di costosa ricerca sull’IA.
Che cos’è la distillazione dell’IA?
Gli attacchi di estrazione del modello (model extraction attacks, MEA), noti anche come “distillazione”, sono una tecnica con cui chi ha accesso a un modello di IA potente lo utilizza per addestrare un rivale più economico e veloce.
Il metodo consiste nel sottoporre al modello più grande migliaia di domande, raccoglierne le risposte e usare quelle stesse risposte per insegnare a un nuovo modello a ragionare in modo simile.
L’utente può quindi interrogare il modello più potente e usare le sue risposte per addestrare un modello più piccolo, che viene sviluppato molto più rapidamente e “a una frazione del costo” rispetto a quanto servirebbe per svolgere il lavoro da zero, sostiene Anthropic.
La distillazione è una pratica “legittima” quando i laboratori più avanzati di IA distillano i propri modelli per “creare versioni più piccole e meno costose per i loro clienti”, ha spiegato la società statunitense.
Secondo Google, i modelli più piccoli rispondono alle richieste molto più velocemente e richiedono molta meno potenza di calcolo ed energia rispetto ai modelli di grandi dimensioni.
Per Anthropic, però, i modelli sviluppati tramite distillazione comportano seri rischi per la sicurezza nazionale, perché “non dispongono delle necessarie misure di sicurezza” per limitare i potenziali pericoli.
Anthropic sostiene che i modelli distillati non avrebbero le protezioni necessarie a impedire ad attori statali e non statali di usare l’IA per sviluppare armi biologiche o condurre attacchi informatici.
Google, dal canto suo, afferma che non ci sono rischi per gli utenti comuni di IA in caso di attacco di distillazione, perché questi attacchi non “mettono a rischio la riservatezza, la disponibilità o l’integrità dei servizi di IA”.
OpenAI ha inoltre riferito ai parlamentari statunitensi, a febbraio, di aver sorpreso DeepSeek mentre cercava di copiare di nascosto i suoi modelli di IA più potenti, avvertendo che l’azienda cinese stava sviluppando nuovi metodi per mascherare le proprie attività.
Che cosa insegnano gli hacker ai loro modelli?
Le società cinesi di IA avrebbero instradato il traffico attraverso indirizzi proxy che gestivano una vasta “hydra network”, un’ampia rete di account falsi che distribuiva le attività su più piattaforme per ottenere accesso ad Anthropic, vietata in Cina.
Una volta ottenuto l’accesso, avrebbero generato grandi volumi di prompt, sia per raccogliere risposte di alta qualità utili all’addestramento dei modelli, sia per produrre decine di migliaia di compiti per l’apprendimento per rinforzo, il metodo con cui un agente impara a prendere decisioni sulla base dei feedback.
Gli account di DeepSeek che hanno violato Claude chiedevano al modello di spiegare come giungeva a una certa risposta e di scrivere il ragionamento passo dopo passo, generando così, secondo Anthropic, “dati di addestramento basati sulla catena di ragionamento su larga scala”.
Sempre secondo l’azienda, gli account di DeepSeek avrebbero usato Claude anche per “generare alternative compatibili con la censura a richieste politicamente sensibili”, come domande sugli oppositori dell’attuale Partito comunista.
La società statunitense ritiene che queste domande abbiano addestrato i modelli di DeepSeek “a deviare le conversazioni dai temi censurati”, ipotesi che rafforza uno studio recente secondo cui i modelli di IA cinesi tendono probabilmente a censurare gli stessi argomenti dei loro media.
MiniMax AI e Moonshoot AI avrebbero condotto campagne di distillazione più estese rispetto a DeepSeek, ma Anthropic non ha fornito esempi del tipo di informazioni raccolte nei loro prompt.
Google ha dichiarato (fonte in inglese) che il suo chatbot di IA Gemini viene spesso usato in modo improprio per compiti di programmazione e scripting o per raccogliere informazioni sensibili, come credenziali di account e indirizzi email.
Anthropic afferma di aver sviluppato sistemi di individuazione per riconoscere queste campagne mentre sono in corso, ma sottolinea che nessuna azienda di IA può risolvere da sola questo problema.