Secondo un nuovo studio, i modelli linguistici di IA non forniscono una diagnosi precoce corretta in oltre l'80% dei casi, e non sono ancora sicuri per un uso clinico senza supervisione.
Secondo un nuovo studio, l'intelligenza artificiale generativa (IA) non dispone ancora dei processi di ragionamento necessari per un uso clinico sicuro.
I chatbot basati sull'IA hanno migliorato la loro accuratezza diagnostica quando dispongono di informazioni cliniche complete, ma continuano a non formulare una diagnosi differenziale appropriata in oltre l'80% dei casi. Lo riferiscono i ricercatori di Mass General Brigham, una rete non profit di ospedali e centri di ricerca con sede a Boston e uno dei maggiori sistemi sanitari degli Stati Uniti.
I risultati dello studio, pubblicato sulla rivista medica ad accesso aperto JAMA Network Open (fonte in inglese), indicano che i modelli linguistici di grandi dimensioni (LLM) non raggiungono il livello di ragionamento richiesto per l'uso clinico.
«Nonostante i continui progressi, i modelli linguistici di grandi dimensioni pronti all'uso non sono pronti per un impiego clinico, senza supervisione, di livello professionale», ha dichiarato Marc Succi, coautore dello studio.
Ha aggiunto che l'IA non è ancora in grado di replicare la diagnosi differenziale, centrale nel ragionamento clinico e che lui definisce «l'arte della medicina».
La diagnosi differenziale è il primo passo che consente agli operatori sanitari di identificare una patologia, distinguendola da altre con sintomi simili.
Come sono stati testati i modelli
Il team di ricerca ha analizzato il funzionamento di 21 LLM, comprese le versioni più recenti di Claude, DeepSeek, Gemini, GPT e Grok.
Li hanno valutati su 29 vignette cliniche standardizzate utilizzando un nuovo strumento, chiamato PrIME-LLM.
Lo strumento misura le capacità dei modelli nelle diverse fasi del ragionamento clinico: formulare una diagnosi iniziale, richiedere gli esami appropriati, arrivare a una diagnosi finale e pianificare il trattamento.
Per simulare lo svolgersi dei casi clinici, i ricercatori hanno fornito ai modelli le informazioni in modo graduale. Hanno iniziato dai dati di base, come età, sesso e sintomi del paziente, per poi aggiungere i risultati dell'esame obiettivo e degli esami di laboratorio.
In un contesto clinico reale, la diagnosi differenziale è fondamentale per poter passare alla fase successiva. Nello studio, però, ai modelli venivano comunque fornite informazioni aggiuntive, così da permettere loro di proseguire anche se fallivano il passaggio della diagnosi differenziale.
I ricercatori hanno osservato che i modelli linguistici raggiungevano un'elevata accuratezza nelle diagnosi finali, ma ottenevano risultati scarsi nel formulare diagnosi differenziali e nel gestire l'incertezza.
Secondo l'autrice dello studio, Arya Rao, valutare gli LLM in modo graduale consente di smettere di considerarli semplici candidati a un test e di collocarli, invece, nel ruolo del medico.
«Questi modelli sono molto bravi a indicare una diagnosi finale quando i dati sono completi, ma fanno fatica all'inizio di un caso, quando le informazioni sono scarse e la situazione è aperta», ha aggiunto.
I ricercatori hanno rilevato che tutti i modelli non riuscivano a formulare una diagnosi differenziale appropriata in oltre l'80% dei casi.
Per quanto riguarda la diagnosi finale, i tassi di successo andavano da circa il 60% a oltre il 90%, a seconda del modello.
La maggior parte degli LLM mostrava una maggiore accuratezza quando, oltre ai dati testuali, riceveva anche risultati di laboratorio e di imaging.
I risultati hanno individuato un gruppo di modelli con le migliori prestazioni, che comprendeva Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash e Gemini 3.0 Pro.
Il ruolo dei professionisti sanitari resta centrale
Gli autori sottolineano però che, nonostante i miglioramenti tra una versione e l'altra e i vantaggi dei modelli ottimizzati per il ragionamento, gli LLM standard non hanno ancora raggiunto il livello di intelligenza necessario per un impiego sicuro e restano limitati nella capacità di dimostrare un ragionamento clinico avanzato.
«I nostri risultati confermano che i modelli linguistici di grandi dimensioni in sanità richiedono ancora l'intervento umano nel processo e una supervisione molto stretta», ha osservato Succi.
Susana Manso García, membro del gruppo di lavoro su Intelligenza artificiale e salute digitale della Società spagnola di medicina di famiglia e comunitaria, che non ha partecipato allo studio, ha affermato che i risultati contengono un messaggio chiaro per il pubblico.
«Lo studio stesso ribadisce che questi modelli linguistici non dovrebbero essere usati per prendere decisioni cliniche senza supervisione. Pertanto, sebbene l'intelligenza artificiale rappresenti uno strumento promettente, il giudizio clinico umano resta indispensabile», ha dichiarato.
«La raccomandazione per il pubblico è di usare queste tecnologie con prudenza e, in presenza di qualsiasi problema di salute, rivolgersi sempre a un professionista sanitario».