I ricercatori hanno scoperto che un modello di intelligenza artificiale supera i medici umani nella maggior parte delle attività di ragionamento clinico, dalle diagnosi alla gestione dei pazienti.
Secondo un nuovo studio, i modelli di intelligenza artificiale hanno superato i medici nelle decisioni mediche di emergenza.
I ricercatori della Harvard Medical School e del Beth Israel Deaconess Medical Center, negli Stati Uniti, hanno messo a confronto l’intelligenza artificiale e i medici su un’ampia gamma di compiti di ragionamento clinico.
Hanno rilevato che i large language model (LLM) hanno superato i medici in diversi compiti, tra cui le decisioni da prendere al pronto soccorso sulla base delle informazioni disponibili, l’individuazione delle diagnosi più probabili e la scelta delle successive fasi di gestione del paziente.
«Abbiamo testato il modello di IA su praticamente tutti i parametri di riferimento e ha superato sia i modelli precedenti sia i nostri gruppi di medici», ha dichiarato Arjun Manrai, coautore senior e professore alla Harvard Medical School.
«Tuttavia questo non significa che l’IA migliorerà necessariamente l’assistenza. Rimane poco studiato come e dove dovrebbe essere utilizzata e abbiamo un estremo bisogno di studi prospettici rigorosi per valutare l’impatto dell’IA sulla pratica clinica».
Come è stato testato il modello di IA?
I ricercatori hanno innanzitutto valutato o1-preview, il modello di ragionamento di OpenAI rilasciato nel 2024, al quale hanno sottoposto una serie di casi clinici, tra cui discussioni di casi pubblicate e cartelle reali di pronto soccorso.
Nella maggior parte degli esperimenti l’IA ha superato i medici, in particolare nel ragionamento sulla gestione del paziente, nel ragionamento clinico, nella documentazione e negli scenari reali di emergenza con informazioni limitate.
«I modelli sono sempre più performanti. In passato li valutavamo con test a scelta multipla; ora ottengono stabilmente punteggi vicini al 100% e non riusciamo più a misurarne i progressi perché abbiamo già raggiunto il soffitto», ha spiegato il co-primo autore Peter Brodeur, clinical fellow in medicina alla Harvard Medical School e al Beth Israel Deaconess.
In uno degli esperimenti, i ricercatori hanno chiesto ai LLM – o1 e GPT-4o – di valutare i pazienti in vari momenti del percorso in un pronto soccorso standard, dalla fase iniziale di triage alle decisioni successive di ricovero.
In ogni fase al modello venivano fornite solo le informazioni disponibili in quel momento e veniva chiesto di formulare le diagnosi più probabili e di raccomandare i passi successivi.
Il divario maggiore tra IA e medici umani è emerso nella fase di triage, quando le informazioni sul paziente sono più scarse.
Come accade per i medici, anche i modelli di IA hanno migliorato le proprie capacità diagnostiche man mano che erano disponibili più informazioni.
«Sebbene l’impiego dell’IA per supportare le decisioni cliniche sia talvolta considerato un’attività ad alto rischio, un uso più esteso di questi strumenti potrebbe contribuire a ridurre i costi umani ed economici legati agli errori diagnostici, ai ritardi e alla mancanza di accesso alle cure», hanno scritto gli autori.
Sono necessarie ulteriori ricerche
I ricercatori sollecitano studi prospettici per valutare queste tecnologie in contesti reali e chiedono ai sistemi sanitari di investire in infrastrutture informatiche e di sviluppare quadri normativi che permettano un’integrazione sicura degli strumenti di IA nei flussi di lavoro clinici.
«Un modello può azzeccare la diagnosi principale ma suggerire anche esami inutili che potrebbero esporre il paziente a rischi», ha aggiunto Brodeur. «Quando si valuta la performance e la sicurezza, il riferimento ultimo devono restare gli esseri umani».
Lo studio presenta alcuni limiti. Gli autori sottolineano che analizza solo la performance dei modelli e si concentra soprattutto sulla versione di anteprima del modello o1, che da allora è stata sostituita da modelli più recenti, come o3 di OpenAI.
«Anche se ci aspettiamo che le prestazioni restino stabili o migliorino con i modelli più recenti, servono altri studi per chiarire come cambiano i risultati tra un modello e l’altro e per analizzare come esseri umani e LLM possano collaborare», hanno concluso gli autori.