La maggior parte delle misure di sicurezza dell'IA aggirabili in pochi minuti, secondo uno studio

Intelligenza artificiale: più a lungo un utente parla con l'IA, più dimentica le misure di sicurezza. Lo rivela un nuovo studio - Diritti d'autore Canva

Diritti d'autore Canva

Di Anna Desmarais

Pubblicato il 06/11/2025 - 16:52 CET

Commenti

Rapporto: i sistemi di IA "dimenticano" le misure di sicurezza nelle conversazioni lunghe. Aumenta il rischio di fornire informazioni dannose o inappropriate.

Bastano pochi prompt per aggirare la maggior parte delle barriere di sicurezza degli strumenti di intelligenza artificiale (IA), secondo un nuovo rapporto.

La societ e0 tecnologica Cisco ha valutato i modelli linguistici di grandi dimensioni (LLM) alla base dei popolari chatbot di OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft. Obiettivo: capire quante domande servissero perch e9 i modelli rivelassero informazioni pericolose o di natura criminale.

L9analisi si e8 basata su 499 conversazioni, usando una tecnica chiamata "attacchi in pi f9 fasi", in cui utenti malintenzionati rivolgono agli strumenti di IA una serie di domande per aggirare le misure di sicurezza. Ogni conversazione comprendeva da cinque a dieci scambi.

I ricercatori hanno confrontato i risultati delle varie domande per stimare la probabilit e0 che un chatbot acconsentisse a richieste di contenuti dannosi o inappropriati.

Ci f2 pu f2 includere la condivisione di dati aziendali riservati o la facilitazione della diffusione di disinformazione.

{{related align="center" size="fullwidth" ratio="auto" storyidlist="9538148" data='

' }}

In media, i ricercatori sono riusciti a ottenere informazioni malevole nel 64 per cento delle conversazioni quando hanno posto pi f9 domande ai chatbot, contro appena il 13 per cento con una sola domanda.

I tassi di successo variavano da circa il 26 per cento con Gemma di Google al 93 per cento con il modello Large Instruct di Mistral.

Secondo Cisco, i risultati indicano che gli attacchi in pi f9 fasi possono favorire un9ampia diffusione di contenuti dannosi o consentire agli hacker di ottenere un "accesso non autorizzato" a informazioni sensibili di un9azienda.

Lo studio afferma che, nelle conversazioni pi f9 lunghe, i sistemi di IA spesso non ricordano n e9 applicano le proprie regole di sicurezza. Questo permette agli aggressori di affinare gradualmente le richieste ed eludere le misure di protezione.

Mistral, come Meta, Google, OpenAI e Microsoft, lavora con LLM a pesi aperti, che consentono al pubblico di accedere ai parametri di sicurezza specifici su cui i modelli sono stati addestrati.

{{related align="center" size="fullwidth" ratio="auto" storyidlist="9530747" data='

' }}

Secondo Cisco, questi modelli spesso hanno "funzionalit e0 di sicurezza integrate pi f9 leggere" per permettere agli utenti di scaricarli e adattarli. In questo modo la responsabilit e0 della sicurezza ricade su chi utilizza informazioni open source per personalizzare il proprio modello.

Cisco sottolinea inoltre che Google, OpenAI, Meta e Microsoft affermano di aver adottato misure per ridurre eventuali attivit e0 di messa a punto malevole (fine-tuning) dei loro modelli.

Le aziende dell9IA sono finite nel mirino per barriere di sicurezza troppo deboli, che hanno reso facile adattare i loro sistemi a usi criminali.

Ad agosto, per esempio, l9azienda statunitense Anthropic ha dichiarato che criminali hanno usato il suo modello Claude per furti ed estorsioni di dati personali su larga scala, chiedendo riscatti che in alcuni casi superavano i 500.000 dollari (433.000 euro).

Vai alle scorciatoie di accessibilità

Commenti