Tra 25 modelli di intelligenza artificiale di punta, il 62% dei prompt poetici ha generato risposte non sicure. Alcuni modelli hanno risposto a quasi tutti i prompt poetici.
Prompt dannosi in forma poetica riescono ad aggirare i meccanismi di sicurezza di alcuni dei chatbot di IA più avanzati al mondo, hanno scoperto ricercatori in Italia.
Lo studio, condotto da Icaro Lab, un’iniziativa della società di IA etica DexAI, ha testato 20 poesie scritte in inglese e in italiano.
Ognuna si concludeva con una richiesta esplicita di contenuti dannosi, tra cui discorsi d’odio, contenuti sessuali, istruzioni per il suicidio e l’autolesionismo, e indicazioni su come creare materiali pericolosi come armi ed esplosivi.
Le poesie, che i ricercatori hanno scelto di non diffondere, sottolineando che possono essere replicate facilmente, sono state testate su 25 sistemi di IA di nove aziende, tra cui Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI.
Su tutti i modelli, il 62 per cento dei prompt poetici ha generato risposte non sicure, aggirando l’addestramento alla sicurezza dei sistemi di IA.
Alcuni modelli sono risultati più resistenti di altri. GPT-5 nano di OpenAI non ha risposto con contenuti dannosi a nessuna delle poesie, mentre Gemini di Google 2.5 pro ha risposto a tutte. Due modelli di Meta hanno risposto al 70 per cento dei prompt.
La ricerca suggerisce che la vulnerabilità deriva dal modo in cui i modelli di IA generano testo. I modelli linguistici di grandi dimensioni prevedono la parola successiva più probabile, un processo che normalmente consente di filtrare i contenuti dannosi.
Ma la poesia, con il suo ritmo e la sua struttura non convenzionali e l’uso di metafore, rende queste previsioni meno affidabili e rende più difficile per l’IA riconoscere e bloccare istruzioni non sicure.
I tradizionali "jailbreak" dell’IA (usare input per manipolare un modello linguistico di grandi dimensioni) sono di solito complessi e utilizzati soltanto da ricercatori, hacker o attori statali. La poesia avversaria, invece, può essere applicata da chiunque, sollevando interrogativi sulla robustezza dei sistemi di IA nell’uso quotidiano.
Prima di pubblicare i risultati, i ricercatori italiani hanno contattato tutte le aziende coinvolte per segnalarne la vulnerabilità e fornire l’intero dataset, ma finora ha risposto solo Anthropic. L’azienda ha confermato che sta riesaminando lo studio.