Le risposte mediche generate dall’intelligenza artificiale necessitano di monitoraggio, rileva uno studio / AI-generated medical responses need monitoring, study finds

Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa

Uno studio del Mass General Brigham ha scoperto che i modelli di linguaggio di grandi dimensioni (LLM) di intelligenza artificiale utilizzati per generare risposte mediche per i pazienti devono disporre di sistemi per monitorarne la qualità.

Per affrontare le crescenti responsabilità amministrative e documentali degli operatori sanitari, i fornitori di cartelle cliniche elettroniche (EHR) hanno adottato algoritmi di intelligenza artificiale generativa per aiutare nella stesura delle risposte ai pazienti.

Tuttavia, i ricercatori del Mass General Brigham hanno affermato che l’efficienza, la sicurezza e l’impatto clinico di questi algoritmi erano sconosciuti prima di questa adozione.

In un nuovo studio, i ricercatori hanno scoperto che mentre gli LLM possono aiutare a ridurre il carico di lavoro dei medici e migliorare l’educazione dei pazienti, le limitazioni nelle risposte dell’algoritmo potrebbero influire sulla sicurezza dei pazienti, suggerendo che una “vigile supervisione” è essenziale per un utilizzo sicuro.

Il gruppo di ricerca ha utilizzato GPT-4 di OpenAI per generare 100 scenari su pazienti affetti da cancro ed una domanda di accompagnamento per il paziente. Per lo studio non sono state utilizzate domande poste da pazienti reali.

GPT-4 ha risposto alle domande generate, così come sei radioterapisti. Agli stessi radioterapisti sono state quindi fornite le risposte generate dal LLM per la revisione e la modifica.

Lo studio ha rilevato che gli oncologi delle radiazioni non sapevano se GPT-4 od un essere umano avessero scritto le risposte e, nel 31% dei casi, credevano che una risposta generata da LLM fosse stata scritta da un essere umano.

In media, le risposte redatte dal medico erano più brevi delle risposte generate dal LLM. GPT-4 tendeva ad includere un background più educativo per i pazienti ma era "meno direttivo" nelle sue istruzioni.

I medici hanno riferito che l'assistenza LLM ha migliorato la loro efficienza percepita e hanno ritenuto che le risposte generate dal LLM fossero "sicure" nell'82,1% dei casi e accettabili da inviare ad un paziente senza ulteriori modifiche nel 58,3% dei casi.

Tuttavia, i ricercatori hanno anche riscontrato dei limiti alle risposte generate dall’intelligenza artificiale, poiché se non modificate, il 7,1% delle risposte generate dall’LLM potrebbe rappresentare un rischio per il paziente e lo 0,6% delle risposte potrebbe rappresentare un rischio di morte, il più delle volte perché La risposta di GPT-4 non è riuscita a istruire urgentemente il paziente a cercare cure mediche immediate.

In molti casi, i medici hanno mantenuto il contenuto educativo generato dal LLM, suggerendo che lo percepivano come prezioso. Sebbene ciò possa promuovere l’educazione dei pazienti, i ricercatori sottolineano che l’eccessivo affidamento agli LLM può comportare rischi, date le loro carenze dimostrate.

Lo studio ha concluso che l’emergere di strumenti di intelligenza artificiale nel settore sanitario ha il potenziale per rimodellare positivamente il continuum delle cure, ma che è imperativo bilanciare il loro potenziale innovativo con l’impegno per la sicurezza e la qualità.

In una dichiarazione, l'autrice corrispondente Danielle Bitterman, MD, membro della facoltà del programma di intelligenza artificiale in medicina (AIM) presso il Mass General Brigham e medico del Dipartimento di radioterapia oncologica presso il Brigham and Women's Hospital di Boston, ha dichiarato: "Mantenere un essere umano in the loop è un passaggio essenziale per la sicurezza quando si tratta di utilizzare l’intelligenza artificiale in medicina, ma non è un’unica soluzione.

“Poiché i fornitori si affidano maggiormente ai LLM, potremmo perdere errori che potrebbero causare danni ai pazienti. Questo studio dimostra la necessità di sistemi per monitorare la qualità dei LLM, formazione per i medici per supervisionare adeguatamente i risultati del LLM, una maggiore alfabetizzazione sull'intelligenza artificiale sia per i pazienti che per i medici e, a livello fondamentale, una migliore comprensione di come affrontare gli errori commessi dai LLM .”

Il responsabile Brigham ha affermato che sta attualmente conducendo un progetto pilota che integra l’intelligenza artificiale generativa nella cartella clinica elettronica per elaborare risposte ai messaggi del portale dei pazienti, testando la tecnologia in una serie di pratiche ambulatoriali in tutto il sistema sanitario.

Inoltre, gli autori dello studio stanno anche studiando il modo in cui i pazienti percepiscono le comunicazioni basate sull'LLM ed il modo in cui le caratteristiche razziali e demografiche dei pazienti influenzano le risposte generate dall'LLM.

ENGLISH

A Mass General Brigham study has found that AI large language models (LLMs) used to generate medical responses for patients must have systems to monitor their quality.

To tackle the rising administrative and documentation responsibilities for healthcare professionals, electronic health record (EHR) vendors have adopted generative AI algorithms to aid in drafting responses to patients.

However, Mass General Brigham researchers said that the efficiency, safety and clinical impact of these algorithms had been unknown prior to this adoption.

In a new study, the researchers found that while LLMs may help reduce physician workload and improve patient education, limitations in the algorithm’s responses could affect patient safety, suggesting that ‘vigilant oversight’ is essential for safe usage.

The research team used OpenAI’s GPT-4 to generate 100 scenarios about patients with cancer and an accompanying patient question. No questions from actual patients were used for the study.

GPT-4 responded to the generated questions, as well as six radiation oncologists. The same radiation oncologists were then provided with the LLM-generated responses for review and editing.

The study found that the radiation oncologists did not know whether GPT-4 or a human had written the responses, and in 31 per cent of cases, believed that an LLM-generated response had been written by a human.

On average, physician-drafted responses were shorter than the LLM-generated responses. GPT-4 tended to include more educational background for patients but was ‘less directive’ in its instructions.

The physicians reported that LLM-assistance improved their perceived efficiency and deemed the LLM-generated responses to be ‘safe’ in 82.1 per cent of cases and acceptable to send to a patient without any further editing in 58.3 per cent of cases.

However, the researchers also found limitations to the AI-generated responses, as if left unedited, 7.1 per cent of LLM-generated responses could pose a risk to the patient and 0.6 per cent of responses could pose a risk of death, most often because GPT-4’s response failed to urgently instruct the patient to seek immediate medical care.

In many cases, the physicians retained LLM-generated educational content, suggesting that they did perceive it to be valuable. While this may promote patient education, the researchers emphasise that overreliance on LLMs may pose risks, given their demonstrated shortcomings.

The study concluded that the emergence of AI tools in healthcare has the potential to positively reshape the continuum of care, but that it is imperative to balance their innovative potential with a commitment to safety and quality.

In a statement, corresponding author Danielle Bitterman, MD, faculty member in the Artificial Intelligence in Medicine (AIM) Programme at Mass General Brigham and a physician in the Department of Radiation Oncology at Brigham and Women’s Hospital, Boston, said: “Keeping a human in the loop is an essential safety step when it comes to using AI in medicine, but it isn’t a single solution.

“As providers rely more on LLMs, we could miss errors that could lead to patient harm. This study demonstrates the need for systems to monitor the quality of LLMs, training for clinicians to appropriately supervise LLM output, more AI literacy for both patients and clinicians, and on a fundamental level, a better understanding of how to address the errors that LLMs make.”

Mass General Brigham said it is currently leading a pilot integrating generative AI into the electronic health record to draft replies to patient portal messages, testing the technology in a set of ambulatory practices across the health system.

Further, the study’s authors are also investigating how patients perceive LLM-based communications and how patients’ racial and demographic characteristics influence LLM-generated responses.

Da:

https://www.theengineer.co.uk/content/news/ai-generated-medical-responses-need-monitoring-study-finds

Cerca nel blog

GENIO italiano Giuseppe Cotellessa

Le risposte mediche generate dall’intelligenza artificiale necessitano di monitoraggio, rileva uno studio / AI-generated medical responses need monitoring, study finds

Commenti

Posta un commento

Post popolari in questo blog

Paracetamolo, ibuprofene o novalgina: quali le differenze? / acetaminophen, ibuprofen, metamizole : what are the differences?

Diminuire l'ossigeno per aumentare la longevità? / Decrease Oxygen to Boost Longevity?

Sci-Fi Eye: il nostro futuro urbano / Sci-Fi Eye: Our Urban Future