Kunstmatige intelligentie die kan ‘redeneren’ is nu in staat om medische scenario’s uit het echte leven net zo goed of beter te diagnosticeren dan artsen, aldus de resultaten van een onderzoek donderdag gepubliceerd in Wetenschap.
De onderzoekers gebruikten voorheen onbekende klinische gevallen om te testen Open AI’s redeneermodel o1 versus het oudere model van het bedrijf, GPT-4, evenals artsen en medische assistenten in opleiding.
In een reeks experimenten verbeterde het o1-model vaak aanzienlijk wat betreft het diagnostische vermogen van de GPT-4 en overtrof het ook artsen. Wanneer het o1-model werd getest met de elektronische medische dossiers van willekeurige gevallen op de spoedeisende hulp van een ziekenhuis in Boston, was het bij de eerste triage in meer dan tweederde van de gevallen diagnostisch accuraat. Twee deskundige behandelende artsen hadden ongeveer de helft van de tijd de juiste diagnose.
Dr. Robert Wachter, professor en voorzitter van de afdeling Geneeskunde aan de Universiteit van Californië, San Francisco, beschreef de bevindingen van het onderzoek als ‘belangrijk’ en suggereerde dat het nu ‘onbetwistbaar’ is dat moderne AI beter zal presteren dan oudere grote taalmodellen en artsen wanneer gevraagd wordt om de juiste diagnose en de volgende stap te identificeren. Hij was niet bij het onderzoek betrokken.
Echter, Wachter, auteur van ‘Een gigantische sprong: hoe AI de gezondheidszorg transformeert en wat dat betekent voor onze toekomst”, voegde eraan toe dat er meer onderzoek nodig is voordat AI volledig in de klinische praktijk wordt geïmplementeerd.
Mashbare lichtsnelheid
“De vraag is hoe goed dit het echte leven nabootst, en het antwoord is redelijk goed, maar niet perfect”, schreef Wachter in een e-mail.
Zoals de auteurs van het onderzoek erkennen, waren de experimenten beperkt tot alleen tekstinvoer en bevatten ze niet de visuele en auditieve aanwijzingen en aanwijzingen waar artsen vaak op vertrouwen voor een diagnose. Hierbij kan het gaan om het niveau van nood van een patiënt en medische beeldvorming.
“GenAI kan deze input waarschijnlijk beginnen te integreren, maar voorlopig is een test van een geschreven en vaak kunstmatig ‘schoon’ klinisch casusscenario niet hetzelfde als naar een spoedeisende hulp gaan en omgaan met de chaos,” zei Wachter. “Kijk maar De Pitt.”
Op basis van hun bevindingen benadrukten de auteurs van het onderzoek een “dringende” behoefte aan verdere studies en prospectieve klinische onderzoeken om te bepalen hoe AI-systemen de klinische praktijk en de patiëntresultaten kunnen verbeteren.
“Het snelle tempo van verbetering in LLM’s heeft substantiële implicaties voor de wetenschap en praktijk van de klinische geneeskunde”, schreven de auteurs, van wie velen gevestigd zijn in het Beth Israel Deaconess Medical Center in Boston, waar het onderzoek werd uitgevoerd.
Een begeleidend artikelook gepubliceerd in Wetenschap en geschreven door twee experts van het Flinders Health and Medical Research Institute in Adelaide, Australië, die niet bij het onderzoek betrokken waren, waren het eens met de urgente implicaties ervan. Ze pleitten er ook voor om artsen niet te vervangen door AI, maar stelden zich in plaats daarvan een stijl van samenwerking voor die toezicht, contextueel oordeel en verantwoordelijkheid biedt.
“Zonder robuust aangetoonde effectiviteit, gelijkheid en veiligheid zullen veel AI-systemen onvoldoende blijven voor klinisch gebruik”, schreven de experts.



