Výzkumníci hodnotí výkon ChatGPT při shrnutí lékařských abstraktů

V nedávné studii publikované v The Annals of Family Medicine výzkumníci hodnotili účinnost Chat Generative Pretrained Transformer (ChatGPT) při shrnutí lékařských abstraktů, které pomáhají lékařům. Cílem studie bylo určit kvalitu, přesnost a zkreslení v souhrnech generovaných ChatGPT a poskytnout pohled na jejich potenciál jako nástroje pro trávení obrovského množství lékařské literatury uprostřed časových omezení, kterým čelí zdravotníci.

Vysoká hodnocení kvality a přesnosti

Studie využila ChatGPT ke zhuštění 140 lékařských abstraktů ze 14 různých časopisů, čímž se snížil obsah v průměru o 70 %. Přes některé nepřesnosti a halucinace zjištěné v malé části souhrnů lékaři hodnotili souhrny vysoce z hlediska kvality a přesnosti. Zjištění naznačují, že ChatGPT má potenciál pomáhat lékařům při efektivním hodnocení lékařské literatury a nabízí stručné a přesné shrnutí uprostřed ohromného množství informací.

Výzkumníci vybrali 10 článků z každého ze 14 časopisů pokrývajících různá lékařská témata a struktury. Pověřili společnost ChatGPT sumarizací těchto článků a vyhodnotili vygenerovaná shrnutí z hlediska kvality, přesnosti, zaujatosti a relevance v deseti lékařských oborech. Studie zjistila, že ChatGPT úspěšně zhuštěné lékařské abstrakty v průměru o 70%, sbírat vysoké hodnocení od lékařů recenzenty za kvalitu a přesnost.

Důsledky pro zdravotnictví

Navzdory vysokému hodnocení studie identifikovala vážné nepřesnosti a halucinace v malém počtu shrnutí. Tyto chyby sahaly od vynechání kritických údajů až po nesprávnou interpretaci návrhů studií, které by mohly potenciálně změnit interpretaci výzkumných zjištění. Nicméně výkon ChatGPT při shrnutí lékařských abstraktů byl považován za spolehlivý, s minimálním pozorováním zkreslení.

Zatímco ChatGPT prokázal silnou shodu s lidskými hodnoceními na úrovni časopisu, jeho výkon při určování relevance jednotlivých článků pro konkrétní lékařské obory byl méně působivý. Tento rozpor upozornil na omezení schopnosti ChatGPT přesně identifikovat relevanci jednotlivých článků v širším kontextu lékařských specializací.

Studie poskytuje cenné poznatky o potenciálu umělé inteligence, zejména ChatGPT, při pomoci lékařům při efektivním hodnocení lékařské literatury. Zatímco ChatGPT ukazuje slibné shrnutí lékařských abstraktů s vysokou kvalitou a přesností, je zapotřebí další výzkum, aby se vyřešila omezení a zlepšila jeho výkonnost ve specifických lékařských kontextech.

Budoucí výzkum by se mohl zaměřit na zdokonalení schopnosti ChatGPT rozpoznat relevanci jednotlivých článků pro konkrétní lékařské obory. Kromě toho by úsilí o zmírnění nepřesností a halucinací ve generovaných souhrnech mohlo dále zvýšit užitečnost nástrojů umělé inteligence ve zdravotnických zařízeních.

Zdroj: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/