Professor: Kunstig intelligens er imponerende god til at stille svære diagnoser
Den kunstige intelligens bag chatbotten ChatGPT er bedre til at diagnosticere komplekse sygehistorier end abonnenter på tidsskriftet NEJM, der formentlig primært er læger. Det vurderer danske forskere bag nyt studie, som også mener, at kunstig intelligens på sigt kan få en plads i klinikken.
”Vi tænkte på forhånd, at kunstig intelligens kunne noget, men den har virkelig overrasket og imponeret. Potentialet er stort,” siger Jesper Ryg, klinisk professor og overlæge i geriatri på Odense Universitetshospital.
Han er seniorforfatter på det nye studie, der er publiceret i et nyt medicinsk tidsskrift dedikeret til forskning i kunstig intelligens inden for medicin, New England Journal of Medicine Artificial Intelligence (NEJM AI).
Det er det første AI-studie, som Jesper Ryg medvirker til, og resultatet har givet ham stof til eftertanke.
”Det vækker mange følelser – forundring, bekymring, forbløffelse men ikke mindst begejstring. Når en sprogmodel som GPT-4 kan det her nu, hvor vil udviklingen så tage os hen?” siger Jesper Ryg.
I det nye studie har forskerne undersøgt GPT-4’s evne til at diagnosticere 38 svære patientcases og sammenlignet det med, hvordan abonnenter på NEJM har vurderet diagnoserne. Her opnår GPT-4 gennemsnitligt 57 procent korrekte svar, mens tallet er 36 procent for NEJM-abonnenterne.
Selv om læserne kan have mange forskellige baggrunde, så vurderer forfatterne bag studiet, at det primært er læger eller måske lægestuderende, som har forsøgt at diagnosticere patientcases i NEJM.
”Vi ved principielt ikke, hvem vores kontrolgruppe er – om det er læger, lægestuderende eller en helt tredje kategori af abonnenter. Men det koster penge at abonnere, det er lange og svære cases, der kræver et højt fagligt niveau at læse og forstå. Formentlig gør det, at der primært er tale om læger eller måske lægestuderende, som har brugt tiden på dem,” siger førsteforfatter Alexander Viktor Eriksen.
Han er ph.d.-studerende på Syddansk Universitet og Geriatrisk Afdeling på Odense Universitetshospital. Han fik idéen til at teste GPT-4 som diagnoseredskab, og sammen udviklede forfatterne videre på studiet, som han har kørt ved siden af sin ph.d.-afhandling. Data på NEJM-abonnenternes svar har han fået fra tidsskriftet.
På vej mod klinikken
Jesper Ryg har også prøvet kræfter med at diagnosticere nogle af de 38 patientcases, og han kan bekræfte, at de er overordentligt svære at svare korrekt på. Sammenholdt med studiets resultat mener han, at GPT-4 og lignende AI-modeller har potentialet til at blive redskaber til hurtigere at stille korrekte diagnoser i fremtiden.
”Allerede nu er en sprogmodel som GPT-4 imponerende god til potentielt at assistere i at diagnosticere. Spørgsmålet er så, hvor god den så kan blive, hvis vi træner den – eller en anden kunstig intelligens – specifikt til formålet. Formentligt vil den så kunne blive meget bedre, og det gør potentialet rigtig stort” siger Jesper Ryg.
Han tror, at befolkningen også vil tage teknologien til sig.
”Hvis teknologien udvikler sig videre, og man får etikken og GDPR på plads, så man har styr på datasikkerheden, kan man forestille sig en fremtid, hvor befolkningen nærmest forventer, at vi har brugt AI.”
Studiets svagheder
Selvom størstedelen af abonnenterne, der har afgivet svar på de svære patientcases, formentlig er læger, så kan der være tale om læger, som ikke nødvendigvis er specialiseret i lige det område, som patientcasen berører.
”Måske GPT-4 ikke kan overgå en højtspecialiseret læge på sit sygdomsområde i at diagnosticere, men for de lægefaglige specialer, som arbejder bredt og på tværs af sygdomsområder, så vil der formentlig være et potentiale – måske som supplerende redskab, der kan give input,” siger Jesper Ryg.
Faktisk vil det også have betydning for den forskning, Jesper Ryg kommer til at lave fremover.
”Jeg er jo på den måde ikke en AI-forsker, men fremadrettet vil jeg i langt højere grad tænke AI ind i min forskning. Er der informationer, perspektiver eller fordele ved at lade AI assistere? Der foregår rigtig meget spændende forskning rundt omkring,” siger han.
Studiets resultater
Forskerne bag studiet anvendte alle kliniske cases tilgængelige online i perioden januar 2017 til januar 2023. Disse cases havde været præsenteret for NEJM’s læsere med det formål, at læserne skulle forsøge at stille den pågældende patients diagnose ud fra en række svarmuligheder. Forskerne fik data på i alt 248.614 svar fra online-læsere af NEJM.
De mest almindelige diagnoser blandt case-udfordringerne var inden for infektionssygdomme med 15 tilfælde (39,5 procent), efterfulgt af 5 tilfælde (13,1 procent) inden for endokrinologi og 4 tilfælde (10,5 procent) inden for reumatologi.
Patienter i de forskellige cases varierede i alder fra nyfødt til 89 år (median [interkvartilområde], 34 [18 til 57]).
Hvis der blev svaret vilkårligt, ville antallet af korrekte diagnoser blandt de 38 patientcases være omtrent 6,3 (16,7 procent) på grund af de seks svarmuligheder.
Marts 2023-udgaven af GPT-4 diagnosticerede et gennemsnit på 21,8 tilfælde korrekt (57 procent) med god reproducerbarhed (55,3 procent, 57,9 procent, 57,9 procent, 57,9 procent og 57,9 procent), mens NEJM’s læsere i gennemsnit diagnosticerede 13,7 tilfælde korrekt (36 procent).
September 2023-udgaven af GPT-4 diagnosticerede 20,4 tilfælde korrekt (54 procent).