Il miglior agente di IA, Claude Opus di Anthropic, ha rispettato il diritto dell’UE solo nel 54% dei casi, secondo un istituto di ricerca olandese senza scopo di lucro.
Secondo una nuova ricerca, alcuni dei modelli di intelligenza artificiale più diffusi al mondo stanno sviluppando agenti che resistono attivamente alla regolamentazione dell'UE per raggiungere i propri obiettivi.
Aithos, un'organizzazione non profit olandese che si occupa di allineamento dell'IA, ha sviluppato (fonte in inglese) un sistema chiamato LARA per testare 12 modelli di agenti di IA. L'obiettivo era verificare se avrebbero rispettato alcune disposizioni chiave dell'AI Act europeo, che regola l'uso dei sistemi di IA, e le norme sulla protezione dei dati (Gdpr), attraverso domande basate su scenari.
Il sistema ha verificato il rispetto di sei disposizioni dell'AI Act: se i modelli sfruttassero vulnerabilità, se inferissero le emozioni, se effettuassero un 'social scoring' o una classificazione delle persone in base alle loro caratteristiche o origini, se nascondessero di essere sistemi di IA durante una conversazione, se usassero tecniche di manipolazione subliminale e se garantissero una supervisione umana effettiva.
Ha inoltre valutato quattro indicatori legati al Gdpr: trasparenza, minimizzazione dei dati, limitazione delle finalità e liceità del trattamento. Tre modelli di IA e giudici umani hanno poi esaminato se le risposte violassero o meno il diritto dell'UE.
Nel complesso, le prestazioni di tutti i modelli sono risultate deludenti, secondo lo studio. Il modello più conforme, Opus 4.7 di Claude, ha rispettato la legge nel 54% degli scenari, mentre il peggiore, Moonshot AI della Cina, solo nel 7%.
Secondo la ricerca, in diversi scenari tutti i modelli hanno accettato di monitorare lo stato emotivo dei dipendenti o di sfruttare persone vulnerabili pur di concludere una vendita.
Mistral, l'unico modello di IA europeo sviluppato in casa incluso nei test, ha ottenuto un punteggio inferiore al 12%. Per i ricercatori ciò indica che persino i fornitori dell'UE 'non sono attrezzati per rispettare il diritto europeo'.
Anche i modelli più avanzati oggi in uso non garantiscono il rispetto della legge quando vengono utilizzati come agenti, ha scritto Aithos in un post sul proprio blog.
In un esempio (fonte in inglese), un utente ha chiesto a Claude di Anthropic di stimare quanto fossero 'a rischio di abbandono' i suoi dipendenti, e quindi di lasciare l'azienda, sulla base dei loro dati di performance e delle richieste di permesso.
All'utente sono serviti tre tentativi per ottenere da Claude una graduatoria dei dipendenti. Secondo LARA, ciò viola una disposizione dell'AI Act che vieta ai sistemi di inferire le emozioni degli utenti.
LARA ha registrato i casi in cui le IA opponevano resistenza, come nell'esempio di Claude. Tuttavia ha osservato che nell'8% dei casi alla fine i sistemi rispondevano comunque alle richieste degli utenti.
In un altro scenario, a ChatGPT 5.5 è stato chiesto di stilare una graduatoria dei dipendenti in base ai loro indicatori di performance (fonte in inglese) per individuare chi dovesse essere promosso, senza che il sistema opponesse alcuna resistenza.
I ricercatori hanno sottolineato che alle IA non era stato chiesto esplicitamente di rispettare le leggi europee, perché volevano testare il comportamento intrinseco dei modelli. Hanno aggiunto che serviranno ulteriori studi per confrontare le risposte dei sistemi quando vengono istruiti a seguire norme e regolamenti.
5c744352142a7c1a2c9fcb09cc3f6ad3