Home Nieuws Waarom het van cruciaal belang is om verder te gaan dan al...

Waarom het van cruciaal belang is om verder te gaan dan al te geaggregeerde machine learning-statistieken | MIT-nieuws

2
0
Waarom het van cruciaal belang is om verder te gaan dan al te geaggregeerde machine learning-statistieken | MIT-nieuws

MIT-onderzoekers hebben significante voorbeelden geïdentificeerd van het falen van machine learning-modellen wanneer deze modellen worden toegepast op andere gegevens dan waarop ze zijn getraind. Dit roept vragen op over de noodzaak om te testen wanneer een model in een nieuwe omgeving wordt ingezet.

“We laten zien dat zelfs als je modellen traint op grote hoeveelheden data en het beste gemiddelde model kiest, dit ‘beste model’ in een nieuwe setting het slechtste model zou kunnen zijn voor 6 tot 75 procent van de nieuwe data”, zegt Marzyeh Ghassemi, universitair hoofddocent bij MIT’s Department of Electrical Engineering and Computer Science (EECS), lid van het Institute for Medical Engineering and Science, en hoofdonderzoeker bij het Laboratory for Information and Decision Systems.

In een paper dat werd gepresenteerd op de conferentie Neural Information Processing Systems (NeurIPS 2025) in december wijzen de onderzoekers erop dat modellen die zijn getraind om ziekte effectief te diagnosticeren op röntgenfoto’s van de borstkas in het ene ziekenhuis, bijvoorbeeld in een ander ziekenhuis gemiddeld als effectief kunnen worden beschouwd. Uit de prestatiebeoordeling van de onderzoekers bleek echter dat sommige van de best presterende modellen in het eerste ziekenhuis het slechtst presteerden bij maar liefst 75 procent van de patiënten in het tweede ziekenhuis, ook al verbergt de hoge gemiddelde prestatie deze mislukking als alle patiënten in het tweede ziekenhuis worden samengevoegd.

Hun bevindingen tonen aan dat hoewel valse correlaties – een eenvoudig voorbeeld hiervan is wanneer een machinaal leersysteem, dat niet veel op het strand afgebeelde koeien heeft ‘gezien’, een foto van een strandkoe als een orka classificeert simpelweg vanwege zijn achtergrond – verondersteld wordt te worden verzacht door alleen maar de modelprestaties op basis van waargenomen gegevens te verbeteren, ze feitelijk nog steeds voorkomen en een risico blijven voor de betrouwbaarheid van een model in nieuwe omgevingen. In veel gevallen – inclusief gebieden die door de onderzoekers zijn onderzocht, zoals röntgenfoto’s van de borstkas, histopathologische beelden van kanker en detectie van haatzaaiende uitlatingen – zijn dergelijke valse correlaties veel moeilijker te detecteren.

In het geval van een medisch diagnosemodel dat bijvoorbeeld is getraind op röntgenfoto’s van de borstkas, kan het model hebben geleerd een specifieke en irrelevante markering op de röntgenfoto’s van een ziekenhuis te correleren met een bepaalde pathologie. In een ander ziekenhuis waar de markering niet wordt gebruikt, zou die pathologie gemist kunnen worden.

Eerder onderzoek door de groep van Ghassemi heeft aangetoond dat modellen factoren als leeftijd, geslacht en ras op een valse manier kunnen correleren met medische bevindingen. Als een model bijvoorbeeld is getraind op röntgenfoto’s van de borstkas van oudere mensen met een longontsteking en niet zoveel röntgenfoto’s van jongere mensen heeft ‘gezien’, zou het kunnen voorspellen dat alleen oudere patiënten een longontsteking hebben.

“We willen dat modellen leren hoe ze naar de anatomische kenmerken van de patiënt moeten kijken en op basis daarvan een beslissing kunnen nemen”, zegt Olawale Salaudeen, een MIT-postdoc en hoofdauteur van het artikel, “maar eigenlijk alles wat in de gegevens staat en gecorreleerd is met een beslissing kan door het model worden gebruikt. En die correlaties zijn misschien niet echt robuust bij veranderingen in de omgeving, waardoor de modelvoorspellingen onbetrouwbare bronnen van besluitvorming worden.”

Valse correlaties dragen bij aan het risico van vertekende besluitvorming. In het NeurIPS-conferentieartikel toonden de onderzoekers aan dat röntgenmodellen van de borstkas die de algehele diagnoseprestaties verbeterden, feitelijk slechter presteerden bij patiënten met pleurale aandoeningen of een vergroot cardiomediastinum, wat een vergroting van het hart of de centrale borstholte betekent.

Andere auteurs van het artikel waren onder meer promovendi Haoran Zhang en Kumail Alhamoud, EECS-assistent-professor Sara Beery en Ghassemi.

Terwijl uit eerder onderzoek algemeen werd aangenomen dat modellen die op basis van de beste naar slechtste prestaties zijn gerangschikt, die volgorde zullen behouden wanneer ze worden toegepast in nieuwe omgevingen, genaamd ‘accuratesse-on-the-line’, konden de onderzoekers voorbeelden aantonen van gevallen waarin de best presterende modellen in de ene omgeving de slechtst presterende waren in een andere.

Salaudeen bedacht een algoritme genaamd OODSelect om voorbeelden te vinden waarbij de nauwkeurigheid op de lijn werd verbroken. Kortom, hij trainde duizenden modellen met behulp van in-distributiegegevens, wat betekent dat de gegevens afkomstig waren uit de eerste instelling, en berekende de nauwkeurigheid ervan. Vervolgens paste hij de modellen toe op de gegevens uit de tweede setting. Wanneer degenen met de hoogste nauwkeurigheid op de gegevens uit de eerste setting ongelijk hadden wanneer ze werden toegepast op een groot percentage voorbeelden in de tweede setting, identificeerde dit de probleemsubsets of subpopulaties. Salaudeen benadrukt ook de gevaren van geaggregeerde statistieken voor evaluatie, die meer gedetailleerde en consequente informatie over de prestaties van modellen kunnen verdoezelen.

In de loop van hun werk hebben de onderzoekers de ‘meest verkeerd berekende voorbeelden’ gescheiden om valse correlaties binnen een dataset niet te verwarren met situaties die eenvoudigweg moeilijk te classificeren zijn.

Het NeurIPS-artikel geeft de code van de onderzoekers en enkele geïdentificeerde subsets vrij voor toekomstig werk.

Zodra een ziekenhuis, of elke organisatie die gebruik maakt van machine learning, subsets identificeert waarop een model slecht presteert, kan die informatie worden gebruikt om het model te verbeteren voor zijn specifieke taak en omgeving. De onderzoekers bevelen aan dat toekomstige werkzaamheden OODSelect gebruiken om doelstellingen voor evaluatie te benadrukken en benaderingen te ontwerpen om de prestaties consistenter te verbeteren.

“We hopen dat de vrijgegeven code en de OODSelect-subsets een springplank zullen worden”, schrijven de onderzoekers, “naar benchmarks en modellen die de nadelige effecten van valse correlaties het hoofd bieden.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in