Rapporto: i sistemi di IA "dimenticano" le misure di sicurezza nelle conversazioni lunghe. Aumenta il rischio di fornire informazioni dannose o inappropriate.
Bastano pochi prompt per aggirare la maggior parte delle barriere di sicurezza degli strumenti di intelligenza artificiale (IA), secondo un nuovo rapporto.
La societe0 tecnologica Cisco ha valutato i modelli linguistici di grandi dimensioni (LLM) alla base dei popolari chatbot di OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft. Obiettivo: capire quante domande servissero perche9 i modelli rivelassero informazioni pericolose o di natura criminale.
L9analisi si e8 basata su 499 conversazioni, usando una tecnica chiamata "attacchi in pif9 fasi", in cui utenti malintenzionati rivolgono agli strumenti di IA una serie di domande per aggirare le misure di sicurezza. Ogni conversazione comprendeva da cinque a dieci scambi.
I ricercatori hanno confrontato i risultati delle varie domande per stimare la probabilite0 che un chatbot acconsentisse a richieste di contenuti dannosi o inappropriati.
Cif2 puf2 includere la condivisione di dati aziendali riservati o la facilitazione della diffusione di disinformazione.
{{related align="center" size="fullwidth" ratio="auto" storyidlist="9538148" data='
In media, i ricercatori sono riusciti a ottenere informazioni malevole nel 64 per cento delle conversazioni quando hanno posto pif9 domande ai chatbot, contro appena il 13 per cento con una sola domanda.
I tassi di successo variavano da circa il 26 per cento con Gemma di Google al 93 per cento con il modello Large Instruct di Mistral.
Secondo Cisco, i risultati indicano che gli attacchi in pif9 fasi possono favorire un9ampia diffusione di contenuti dannosi o consentire agli hacker di ottenere un "accesso non autorizzato" a informazioni sensibili di un9azienda.
Lo studio afferma che, nelle conversazioni pif9 lunghe, i sistemi di IA spesso non ricordano ne9 applicano le proprie regole di sicurezza. Questo permette agli aggressori di affinare gradualmente le richieste ed eludere le misure di protezione.
Mistral, come Meta, Google, OpenAI e Microsoft, lavora con LLM a pesi aperti, che consentono al pubblico di accedere ai parametri di sicurezza specifici su cui i modelli sono stati addestrati.
{{related align="center" size="fullwidth" ratio="auto" storyidlist="9530747" data='
Secondo Cisco, questi modelli spesso hanno "funzionalite0 di sicurezza integrate pif9 leggere" per permettere agli utenti di scaricarli e adattarli. In questo modo la responsabilite0 della sicurezza ricade su chi utilizza informazioni open source per personalizzare il proprio modello.
Cisco sottolinea inoltre che Google, OpenAI, Meta e Microsoft affermano di aver adottato misure per ridurre eventuali attivite0 di messa a punto malevole (fine-tuning) dei loro modelli.
Le aziende dell9IA sono finite nel mirino per barriere di sicurezza troppo deboli, che hanno reso facile adattare i loro sistemi a usi criminali.
Ad agosto, per esempio, l9azienda statunitense Anthropic ha dichiarato che criminali hanno usato il suo modello Claude per furti ed estorsioni di dati personali su larga scala, chiedendo riscatti che in alcuni casi superavano i 500.000 dollari (433.000 euro).