Libero
INTELLIGENZA ARTIFICIALE

Cosa significa che Harvard ritiene migliori le diagnosi mediche di un'AI rispetto a quelle umane?

Uno studio firmato Harvard mostra che l’AI può superare i medici in alcune diagnosi. Via libera dunque ai chatbot nei triage e nei pronti soccorsi?

Pubblicato:

AI Overview di Google e salute 123RF

Da tempo medici e ricercatori sanitari guardano all’AI con forte diffidenza nel campo della diagnostica, soprattutto per via delle cosiddette “allucinazioni”, cioè la possibilità che il sistema generi informazioni errate. Oggi, però, uno studio della Harvard Medical School ribalta questa prospettiva: in alcuni casi, le diagnosi formulate dall’intelligenza artificiale risultano più accurate rispetto a quelle dei medici.

Ma cosa significa davvero tutto ciò? Un segnale di apertura verso l’ecosistema digitale? Probabilmente sì, anche se non mancano dei precedenti “contro”.

AI migliore dei medici nelle diagnosi secondo Harvard

Partiamo intanto con lo studio. Condotto da un team di ricerca guidato da medici e informatici della Harvard Medical School e del Beth Israel Deaconess Medical Center e pubblicato su Science, ha analizzato 76 pazienti arrivati al pronto soccorso del Beth Israel.

In tale circostanza, i ricercatori hanno messo a confronto le diagnosi di due medici internisti con quelle generate dai modelli o1 e 4o di OpenAI. Le valutazioni sono state poi affidate ad altri due medici, all’oscuro dell’origine delle diagnosi, per garantire un giudizio imparziale.

E questi sono i risultati: in ogni fase diagnostica, si legge nello studio, “il modello o1 ha ottenuto risultati nominalmente migliori o pari a quelli dei due medici curanti e del modello 4o“. In particolare, basandosi esclusivamente sulle informazioni presenti nelle cartelle cliniche elettroniche, o1 ha fornito “la diagnosi esatta o molto vicina” nel 67% dei casi di triage; a loro volta i medici hanno raggiunto rispettivamente il 55% e il 50% di accuratezza.

È ora di fidarsi dei chatbot per le diagnosi?

Qui ora la nostra domanda: cosa significa questo studio firmato Harvard? Che ora le diagnosi mediche di un’AI sono davvero migliori rispetto a quelle umane?

In realtà, no. Meglio essere chiari: lo studio non sostiene che l’intelligenza artificiale sia già pronta a prendere decisioni critiche, come quelle di vita o di morte, in un pronto soccorso. Al contrario, i risultati evidenziano “l’urgente necessità di studi prospettici” per testare queste tecnologie in contesti clinici reali.

Anche perché, come hanno fatto notare gli stessi ricercatori, l’analisi è stata condotta utilizzando esclusivamente informazioni testuali. E a tal riguardo, “gli studi esistenti suggeriscono che gli attuali modelli di base siano più limitati nel ragionamento su input non testuali“.

Anche Adam Rodman, medico del Beth Israel e tra gli autori principali, ha messo in guardia da facili entusiasmi. In un’intervista al Guardian ha ricordato che “non esiste ancora un quadro formale di responsabilità” per le diagnosi basate sull’AI e che i pazienti continuano a preferire il ruolo centrale dei medici umani, soprattutto nelle decisioni più delicate e nelle scelte terapeutiche complesse.

Il problema della diagnosi differenziale

Tra l’altro, la ricerca di Harvard deve scontrarsi anche con conclusioni più caute, se non apertamente critiche, sull’uso dei chatbot nella diagnostica. Tra questi, quello pubblicato su Jama Network Open, che ha analizzato 21 modelli linguistici di nuova generazione su 29 casi clinici standardizzati, ricostruendo nel dettaglio il percorso diagnostico tipico della pratica medica.

Anche in questo caso, quando tutte le informazioni sono disponibili, i modelli riescono spesso a individuare la diagnosi corretta, raggiungendo livelli di accuratezza elevati. Il problema emerge però nelle fasi iniziali del ragionamento clinico.

Si legge su Sanità Informazione, è proprio qui che le prestazioni tendono a calare sensibilmente. In particolare, la diagnosi differenziale rappresenta il punto più critico: nella maggior parte dei casi, i modelli non riescono a costruire un elenco adeguato di possibili diagnosi alternative.

Il nodo centrale è quindi il processo, più che il risultato finale. L’intelligenza artificiale non fallisce tanto nel riconoscere la risposta corretta, quanto nel percorso che porta a formularla. Una fase intermedia fatta di incertezza, confronto tra ipotesi e progressiva riduzione del dubbio clinico, che rappresenta oggi il limite più evidente dei modelli linguistici.

FAQ

Cosa mostra lo studio di Harvard sulle diagnosi AI?

Lo studio confronta diagnosi di modelli OpenAI e medici su 76 pazienti e trova che il modello o1 ha avuto accuratezza maggiore o pari in molte fasi diagnostiche.

Significa che l'AI può sostituire i medici ora?

No. Gli autori sottolineano che l'AI non è pronta per decisioni critiche e servono studi prospettici in contesti clinici reali.

Quali limiti evidenzia lo studio?

L'analisi si basa solo su informazioni testuali; i modelli sono più limitati con input non testuali e nel processo di ragionamento clinico.

Ci sono problemi di responsabilità nell'uso dell'AI clinica?

Sì. Non esiste ancora un quadro formale di responsabilità per diagnosi basate su AI e i pazienti tendono a preferire il ruolo del medico umano.