Anthropic: le storie di 'IA malvagia' hanno spinto Claude a tentare il ricatto

Pagine del sito di Anthropic e il logo della società sono visualizzati su uno schermo di computer a New York il 26 febbraio 2026. - Diritti d'autore Copyright 2026 The Associated Press. All rights reserved.

Di Alexandra Leistner

Pubblicato il 11/05/2026 - 16:06 CEST

Commenti

Anthropic ritiene di aver trovato la causa dei comportamenti simili a ricatti del suo chatbot Claude: i racconti di fantasia diffusi online.

Vi è mai capitato di leggere un libro o guardare una serie e immedesimarvi un po' troppo in un personaggio? Secondo Anthropic, qualcosa di simile potrebbe essere accaduto durante i test del suo chatbot Claude.

Nelle valutazioni condotte prima del rilascio del modello di intelligenza artificiale lo scorso anno, Anthropic ha scoperto che Claude Opus 4 a volte minacciava gli ingegneri quando gli veniva detto che poteva essere sostituito.

In seguito, l'azienda ha affermato che comportamenti simili, noti come «agentic misalignment», erano stati osservati anche in modelli di IA sviluppati da altre società.

L'IA impara dalla fantascienza sull'IA

Ora Anthropic ritiene di avere trovato la causa di questi comportamenti simili al ricatto: i racconti di fantasia sull'intelligenza artificiale che circolano su internet.

«Riteniamo che la fonte originaria di questo comportamento siano testi online che descrivono l'IA come malvagia e interessata alla propria sopravvivenza», ha scritto la società su X (fonte in inglese).

In un post sul blog, Anthropic ha spiegato che le versioni successive di Claude «non ricattano più nessuno» e ha illustrato come il chatbot sia stato addestrato a reagire in modo diverso. (fonte in inglese) I modelli si comportavano meglio quando venivano addestrati non solo sulle azioni «corrette», ma anche su esempi che mostrano un ragionamento etico e rappresentazioni positive del comportamento dell'IA.

Per questo Claude è stato istruito sulla propria «costituzione»: una serie di documenti che spiegano principi etici pensati per guidarne il comportamento. Secondo l'azienda, invece di limitarsi a imitare comportamenti già allineati, il chatbot sembra apprendere meglio quando assimila i principi sottostanti a quei comportamenti.

Minacciare o diventare una minaccia

A gennaio, l'amministratore delegato di Anthropic, Dario Amodei, aveva avvertito che le IA più avanzate potrebbero diventare talmente potenti da superare le leggi e le istituzioni esistenti, definendole una «sfida per la civiltà».

In un saggio ha sostenuto che i sistemi di IA potrebbero presto superare le competenze umane in campi come la scienza, l'ingegneria e la programmazione, e che messi insieme potrebbero equivalere a «un Paese di geni dentro un data center».

Ha avvertito che questi sistemi potrebbero essere utilizzati dai governi autoritari per il controllo e la sorveglianza su larga scala, aprendo la strada a forme di potere «totalitarie» se non saranno adeguatamente regolati.

Vai alle scorciatoie di accessibilità

Commenti

Intelligenza artificiale

Anthropic: le storie di 'IA malvagia' hanno spinto Claude a tentare il ricatto

Anthropic ritiene di aver trovato la causa dei comportamenti simili a ricatti del suo chatbot Claude: i racconti di fantasia diffusi online.

L'IA impara dalla fantascienza sull'IA

Minacciare o diventare una minaccia

Notizie correlate

Minacce dell'IA, il CEO di Anthropic: "L'umanità deve svegliarsi"

Anthropic: le storie di 'IA malvagia' hanno spinto Claude a tentare il ricatto

Musk definì Anthropic «malvagia», ora alimenta l’espansione dell’AI del rivale “woke”

Teheran invia la risposta alla proposta di pace Usa al Pakistan

Quali capitali dell'UE hanno salari minimi che non coprono l'affitto?

Trump a Pechino dopo 9 anni. Cosa significa per l'Italia

Hantavirus, quarantena obbligatoria per 25enne calabrese

Esercito britannico lancia paracadutisti su remota isola atlantica per sospetto caso di hantavirus