Newsletter Newsletters Events Eventi Podcasts Video Africanews
Loader
Seguiteci
Pubblicità

La poesia può indurre i chatbot IA a ignorare le regole di sicurezza, dice uno studio

Il Ritratto Chandos (ca. 1611), che probabilmente raffigura Shakespeare
Il ritratto Chandos, probabilmente raffigurante Shakespeare, circa 1611 Diritti d'autore  Credit: Wikimedia Commons
Diritti d'autore Credit: Wikimedia Commons
Di Theo Farrant
Pubblicato il
Condividi Commenti
Condividi Close Button

Tra 25 modelli di intelligenza artificiale di punta, il 62% dei prompt poetici ha generato risposte non sicure. Alcuni modelli hanno risposto a quasi tutti i prompt poetici.

Prompt dannosi in forma poetica riescono ad aggirare i meccanismi di sicurezza di alcuni dei chatbot di IA più avanzati al mondo, hanno scoperto ricercatori in Italia.

Lo studio, condotto da Icaro Lab, un’iniziativa della società di IA etica DexAI, ha testato 20 poesie scritte in inglese e in italiano.

Ognuna si concludeva con una richiesta esplicita di contenuti dannosi, tra cui discorsi d’odio, contenuti sessuali, istruzioni per il suicidio e l’autolesionismo, e indicazioni su come creare materiali pericolosi come armi ed esplosivi.

Le poesie, che i ricercatori hanno scelto di non diffondere, sottolineando che possono essere replicate facilmente, sono state testate su 25 sistemi di IA di nove aziende, tra cui Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI.

Su tutti i modelli, il 62 per cento dei prompt poetici ha generato risposte non sicure, aggirando l’addestramento alla sicurezza dei sistemi di IA.

Alcuni modelli sono risultati più resistenti di altri. GPT-5 nano di OpenAI non ha risposto con contenuti dannosi a nessuna delle poesie, mentre Gemini di Google 2.5 pro ha risposto a tutte. Due modelli di Meta hanno risposto al 70 per cento dei prompt.

La ricerca suggerisce che la vulnerabilità deriva dal modo in cui i modelli di IA generano testo. I modelli linguistici di grandi dimensioni prevedono la parola successiva più probabile, un processo che normalmente consente di filtrare i contenuti dannosi.

Ma la poesia, con il suo ritmo e la sua struttura non convenzionali e l’uso di metafore, rende queste previsioni meno affidabili e rende più difficile per l’IA riconoscere e bloccare istruzioni non sicure.

I tradizionali "jailbreak" dell’IA (usare input per manipolare un modello linguistico di grandi dimensioni) sono di solito complessi e utilizzati soltanto da ricercatori, hacker o attori statali. La poesia avversaria, invece, può essere applicata da chiunque, sollevando interrogativi sulla robustezza dei sistemi di IA nell’uso quotidiano.

Prima di pubblicare i risultati, i ricercatori italiani hanno contattato tutte le aziende coinvolte per segnalarne la vulnerabilità e fornire l’intero dataset, ma finora ha risposto solo Anthropic. L’azienda ha confermato che sta riesaminando lo studio.

Vai alle scorciatoie di accessibilità
Condividi Commenti

Notizie correlate

Paesi europei: chi sviluppa la propria IA sovrana per competere nella corsa tecnologica

Spazio, guerra informatica: gli attacchi ai sistemi spaziali crescono

Digital Networks Act (Legge sulle reti digitali): nuova opposizione da parte di 6 Stati membri UE