Newsletter Newsletters Events Eventi Podcasts Video Africanews
Loader
Seguiteci
Pubblicità

Studio: l'IA sbaglia oltre l'80% delle diagnosi iniziali dei pazienti

Uno studio indica che i chatbot di intelligenza artificiale non sono ancora pronti per essere usati in prima linea nella pratica clinica.
Uno studio indica che i chatbot di intelligenza artificiale non sono ancora pronti per l'uso clinico in prima linea. Diritti d'autore  Cleared/Canva
Diritti d'autore Cleared/Canva
Di Marta Iraola Iribarren
Pubblicato il
Condividi Commenti
Condividi Close Button

Secondo un nuovo studio, i modelli linguistici di IA non forniscono una diagnosi precoce corretta in oltre l'80% dei casi, e non sono ancora sicuri per un uso clinico senza supervisione.

Secondo un nuovo studio, l'intelligenza artificiale generativa (IA) non dispone ancora dei processi di ragionamento necessari per un uso clinico sicuro.

PUBBLICITÀ
PUBBLICITÀ

I chatbot basati sull'IA hanno migliorato la loro accuratezza diagnostica quando dispongono di informazioni cliniche complete, ma continuano a non formulare una diagnosi differenziale appropriata in oltre l'80% dei casi. Lo riferiscono i ricercatori di Mass General Brigham, una rete non profit di ospedali e centri di ricerca con sede a Boston e uno dei maggiori sistemi sanitari degli Stati Uniti.

I risultati dello studio, pubblicato sulla rivista medica ad accesso aperto JAMA Network Open (fonte in inglese), indicano che i modelli linguistici di grandi dimensioni (LLM) non raggiungono il livello di ragionamento richiesto per l'uso clinico.

«Nonostante i continui progressi, i modelli linguistici di grandi dimensioni pronti all'uso non sono pronti per un impiego clinico, senza supervisione, di livello professionale», ha dichiarato Marc Succi, coautore dello studio.

Ha aggiunto che l'IA non è ancora in grado di replicare la diagnosi differenziale, centrale nel ragionamento clinico e che lui definisce «l'arte della medicina».

La diagnosi differenziale è il primo passo che consente agli operatori sanitari di identificare una patologia, distinguendola da altre con sintomi simili.

Come sono stati testati i modelli

Il team di ricerca ha analizzato il funzionamento di 21 LLM, comprese le versioni più recenti di Claude, DeepSeek, Gemini, GPT e Grok.

Li hanno valutati su 29 vignette cliniche standardizzate utilizzando un nuovo strumento, chiamato PrIME-LLM.

Lo strumento misura le capacità dei modelli nelle diverse fasi del ragionamento clinico: formulare una diagnosi iniziale, richiedere gli esami appropriati, arrivare a una diagnosi finale e pianificare il trattamento.

Per simulare lo svolgersi dei casi clinici, i ricercatori hanno fornito ai modelli le informazioni in modo graduale. Hanno iniziato dai dati di base, come età, sesso e sintomi del paziente, per poi aggiungere i risultati dell'esame obiettivo e degli esami di laboratorio.

In un contesto clinico reale, la diagnosi differenziale è fondamentale per poter passare alla fase successiva. Nello studio, però, ai modelli venivano comunque fornite informazioni aggiuntive, così da permettere loro di proseguire anche se fallivano il passaggio della diagnosi differenziale.

I ricercatori hanno osservato che i modelli linguistici raggiungevano un'elevata accuratezza nelle diagnosi finali, ma ottenevano risultati scarsi nel formulare diagnosi differenziali e nel gestire l'incertezza.

Secondo l'autrice dello studio, Arya Rao, valutare gli LLM in modo graduale consente di smettere di considerarli semplici candidati a un test e di collocarli, invece, nel ruolo del medico.

«Questi modelli sono molto bravi a indicare una diagnosi finale quando i dati sono completi, ma fanno fatica all'inizio di un caso, quando le informazioni sono scarse e la situazione è aperta», ha aggiunto.

I ricercatori hanno rilevato che tutti i modelli non riuscivano a formulare una diagnosi differenziale appropriata in oltre l'80% dei casi.

Per quanto riguarda la diagnosi finale, i tassi di successo andavano da circa il 60% a oltre il 90%, a seconda del modello.

La maggior parte degli LLM mostrava una maggiore accuratezza quando, oltre ai dati testuali, riceveva anche risultati di laboratorio e di imaging.

I risultati hanno individuato un gruppo di modelli con le migliori prestazioni, che comprendeva Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash e Gemini 3.0 Pro.

Il ruolo dei professionisti sanitari resta centrale

Gli autori sottolineano però che, nonostante i miglioramenti tra una versione e l'altra e i vantaggi dei modelli ottimizzati per il ragionamento, gli LLM standard non hanno ancora raggiunto il livello di intelligenza necessario per un impiego sicuro e restano limitati nella capacità di dimostrare un ragionamento clinico avanzato.

«I nostri risultati confermano che i modelli linguistici di grandi dimensioni in sanità richiedono ancora l'intervento umano nel processo e una supervisione molto stretta», ha osservato Succi.

Susana Manso García, membro del gruppo di lavoro su Intelligenza artificiale e salute digitale della Società spagnola di medicina di famiglia e comunitaria, che non ha partecipato allo studio, ha affermato che i risultati contengono un messaggio chiaro per il pubblico.

«Lo studio stesso ribadisce che questi modelli linguistici non dovrebbero essere usati per prendere decisioni cliniche senza supervisione. Pertanto, sebbene l'intelligenza artificiale rappresenti uno strumento promettente, il giudizio clinico umano resta indispensabile», ha dichiarato.

«La raccomandazione per il pubblico è di usare queste tecnologie con prudenza e, in presenza di qualsiasi problema di salute, rivolgersi sempre a un professionista sanitario».

Vai alle scorciatoie di accessibilità
Condividi Commenti

Notizie correlate

L'impatto del long Covid sull'economia dell'Ue: costi fino a 115,3 miliardi di euro all'anno nel prossimo decennio

Dalla perdita ossea alla vista offuscata: come i viaggi spaziali cambiano il corpo umano

Bastano sette giorni di meditazione per cambiare il cervello, secondo uno studio