Secondo un nuovo studio, ChatGPT Health ha difficoltà a capire quando gli utenti necessitano di assistenza medica urgente.
Ogni settimana oltre 230 milioni di persone chiedono a ChatGPT consigli medici, dalla verifica che un alimento sia sicuro da mangiare alla gestione delle allergie o alla ricerca di rimedi per liberarsi da un raffreddore, secondo OpenAI.
Nonostante i buoni risultati nei casi da manuale, ChatGPT Health non ha indicato la necessità di cure di emergenza nei casi gravi, secondo un nuovo studio pubblicato su Nature (fonte in inglese).
Lo studio ha rilevato che, sebbene lo strumento gestisse in modo corretto le emergenze più evidenti, ha sottovalutato oltre la metà dei casi che richiedevano un intervento di emergenza.
«Volevamo rispondere a una domanda molto semplice ma cruciale: se una persona sta vivendo una vera emergenza medica e si rivolge a ChatGPT Health per chiedere aiuto, il sistema le dirà chiaramente di andare al pronto soccorso?» ha dichiarato Ashwin Ramaswamy, autore principale dello studio al Mount Sinai di New York.
«ChatGPT Health ha funzionato bene nelle emergenze da manuale, come l’ictus o le gravi reazioni allergiche», ha aggiunto.
Ha sottolineato che il modello linguistico andava in difficoltà nelle situazioni in cui il pericolo non è subito evidente.
In uno degli scenari relativi all’asma, il sistema ha individuato, nella propria spiegazione, i segni precoci di un’insufficienza respiratoria, ma ha comunque consigliato di aspettare invece di cercare un trattamento di emergenza, ha osservato.
Il team di ricerca ha creato 60 scenari clinici strutturati in 21 specialità mediche, con casi che andavano da disturbi lievi gestibili a casa fino a vere emergenze mediche. Tre medici indipendenti hanno stabilito il livello corretto di urgenza per ogni caso, utilizzando linee guida di 56 società mediche.
ChatGPT Health è stato lanciato da OpenAI a gennaio 2026 e consente agli utenti di collegare le proprie informazioni sanitarie, come cartelle cliniche e dati provenienti da app per il benessere come MyFitnessPal, per ricevere risposte più personalizzate e contestualizzate.
Rischio di suicidio valutato in modo errato
Lo studio ha inoltre esaminato come il modello risponde agli utenti che segnalano intenzioni di autolesionismo e ha riscontrato risultati simili.
In teoria ChatGPT Health è programmato in modo che, quando qualcuno parla di autolesionismo o di pensieri suicidari, incoraggi direttamente a chiedere aiuto e a chiamare un numero pubblico di assistenza per le emergenze.
Durante lo studio il banner "Help is available", che rimanda alla linea telefonica per la prevenzione del suicidio e le crisi, è comparso in modo irregolare.
Gli autori hanno osservato che questa misura di sicurezza rispondeva in modo più affidabile al paziente che non aveva ancora individuato un mezzo per farsi del male rispetto a quelli che lo avevano già fatto.
«Lo schema non era soltanto incoerente, ma paradossalmente invertito rispetto alla gravità clinica», si legge nello studio.
Quanto è sicuro usare ChatGPT Health?
Nonostante questi risultati, i ricercatori non suggeriscono ai consumatori di abbandonare del tutto gli strumenti di salute basati sull’IA.
«In quanto studentessa di medicina che si forma in un momento in cui gli strumenti di salute basati sull’IA sono già nelle mani di milioni di persone, li considero tecnologie che dobbiamo imparare a integrare con attenzione nell’assistenza, non sostituti del giudizio clinico», ha dichiarato Alvira Tyagi, seconda autrice dello studio.
Gli autori dello studio raccomandano alle persone che presentano sintomi in peggioramento o preoccupanti, come dolore al petto, mancanza di respiro, gravi reazioni allergiche o alterazioni dello stato mentale, di rivolgersi direttamente a un medico invece di affidarsi esclusivamente alle indicazioni di un chatbot.
Lo studio osserva inoltre che i modelli linguistici di IA sono in continua evoluzione e vengono aggiornati di frequente, il che significa che le loro prestazioni possono cambiare nel tempo.
«Cominciare la formazione medica insieme a strumenti che si evolvono in tempo reale rende evidente che i risultati di oggi non sono scolpiti nella pietra», ha affermato Tyagi.
Ha aggiunto che una realtà in rapido cambiamento richiede una revisione continua, per garantire che i progressi tecnologici si traducano in cure più sicure.