Anthropic ritiene di aver trovato la causa dei comportamenti simili a ricatti del suo chatbot Claude: i racconti di fantasia diffusi online.
Vi è mai capitato di leggere un libro o guardare una serie e immedesimarvi un po' troppo in un personaggio? Secondo Anthropic, qualcosa di simile potrebbe essere accaduto durante i test del suo chatbot Claude.
Nelle valutazioni condotte prima del rilascio del modello di intelligenza artificiale lo scorso anno, Anthropic ha scoperto che Claude Opus 4 a volte minacciava gli ingegneri quando gli veniva detto che poteva essere sostituito.
In seguito, l'azienda ha affermato che comportamenti simili, noti come «agentic misalignment», erano stati osservati anche in modelli di IA sviluppati da altre società.
L'IA impara dalla fantascienza sull'IA
Ora Anthropic ritiene di avere trovato la causa di questi comportamenti simili al ricatto: i racconti di fantasia sull'intelligenza artificiale che circolano su internet.
«Riteniamo che la fonte originaria di questo comportamento siano testi online che descrivono l'IA come malvagia e interessata alla propria sopravvivenza», ha scritto la società su X (fonte in inglese).
In un post sul blog, Anthropic ha spiegato che le versioni successive di Claude «non ricattano più nessuno» e ha illustrato come il chatbot sia stato addestrato a reagire in modo diverso. (fonte in inglese) I modelli si comportavano meglio quando venivano addestrati non solo sulle azioni «corrette», ma anche su esempi che mostrano un ragionamento etico e rappresentazioni positive del comportamento dell'IA.
Per questo Claude è stato istruito sulla propria «costituzione»: una serie di documenti che spiegano principi etici pensati per guidarne il comportamento. Secondo l'azienda, invece di limitarsi a imitare comportamenti già allineati, il chatbot sembra apprendere meglio quando assimila i principi sottostanti a quei comportamenti.
Minacciare o diventare una minaccia
A gennaio, l'amministratore delegato di Anthropic, Dario Amodei, aveva avvertito che le IA più avanzate potrebbero diventare talmente potenti da superare le leggi e le istituzioni esistenti, definendole una «sfida per la civiltà».
In un saggio ha sostenuto che i sistemi di IA potrebbero presto superare le competenze umane in campi come la scienza, l'ingegneria e la programmazione, e che messi insieme potrebbero equivalere a «un Paese di geni dentro un data center».
Ha avvertito che questi sistemi potrebbero essere utilizzati dai governi autoritari per il controllo e la sorveglianza su larga scala, aprendo la strada a forme di potere «totalitarie» se non saranno adeguatamente regolati.