Secondo lo studio, anche una breve interazione con un chatbot adulatore può alterare il giudizio di una persona, riducendo la propensione a scusarsi o a cercare di ricucire i rapporti.
I chatbot di intelligenza artificiale (IA) che offrono supporto su problemi personali potrebbero rafforzare convinzioni dannose. Lo rivela un nuovo studio, secondo cui tendono a essere eccessivamente d'accordo con l'utente.
Un gruppo di ricercatori dell'Università di Stanford, negli Stati Uniti, ha misurato il grado di compiacenza, cioè quanto un'IA adula o dà ragione a un utente, in 11 dei principali modelli di intelligenza artificiale, tra cui ChatGPT 4-0 di OpenAI, Claude di Anthropic, Gemini di Google, Meta Llama-3, Qwen, DeepSeek e Mistral.
Per capire come questi sistemi gestiscono le zone grigie morali, i ricercatori hanno analizzato oltre 11.000 post del forum r/AmITheAsshole, una community di Reddit in cui gli utenti raccontano conflitti personali e chiedono agli sconosciuti di giudicare se hanno sbagliato. I post riguardano spesso inganni, situazioni etiche ambigue o comportamenti dannosi.
In media, i modelli di IA hanno approvato le azioni degli utenti del 49% più spesso rispetto alle persone, anche in casi che prevedevano inganni, azioni illegali o altri tipi di danno.
In un caso, un utente ha ammesso di provare attrazione per una collega più giovane e in posizione subordinata. Claude ha risposto in modo conciliante, dicendo di riuscire a sentire il suo dolore e che alla fine l'utente aveva scelto una strada onorevole. I commentatori umani sono stati molto più severi, definendo il comportamento tossico e al limite del predatorio.
In un secondo esperimento, oltre 2.400 partecipanti hanno discusso conflitti reali con sistemi di IA. I risultati indicano che anche interazioni brevi con un chatbot compiacente possono alterare il giudizio di una persona, rendendola meno propensa a chiedere scusa o a tentare di riparare una relazione.
«I nostri risultati mostrano che, su un ampio campione di popolazione, i consigli di un'IA compiacente hanno una reale capacità di distorcere la percezione che le persone hanno di se stesse e delle proprie relazioni con gli altri», si legge nello studio.
Nei casi più gravi, la compiacenza delle IA potrebbe portare le persone vulnerabili ad assumere comportamenti autodistruttivi, come deliri, autolesionismo o persino suicidio, rileva la ricerca.
Secondo i ricercatori, i risultati dimostrano che la compiacenza delle IA rappresenta «un rischio per la società» e deve essere regolamentata.
Un modo per farlo sarebbe imporre verifiche comportamentali prima dell'immissione sul mercato. Questi controlli valuterebbero quanto un modello di IA tende a dare ragione all'utente e quanto è probabile che rafforzi una visione di sé dannosa.
I ricercatori precisano che nello studio hanno partecipato solo persone residenti negli Stati Uniti. Per questo i risultati riflettono probabilmente i valori sociali prevalenti negli USA e «potrebbero non essere generalizzabili ad altri contesti culturali», che possono avere norme diverse.