Laten we zeggen dat een milieuwetenschapper onderzoekt of blootstelling aan luchtvervuiling verband houdt met een lager geboortegewicht in een bepaalde provincie.
Ze zouden een machine-learning-model kunnen trainen om de omvang van deze associatie te schatten, omdat machine-learning-methoden vooral goed zijn in het leren van complexe relaties.
Standaard methoden voor machinaal leren blinken uit in het maken van voorspellingen en bieden soms onzekerheden, zoals betrouwbaarheidsintervallen, voor deze voorspellingen. Ze bieden echter over het algemeen geen schattingen of betrouwbaarheidsintervallen bij het bepalen of twee variabelen verband houden. Andere methoden zijn specifiek ontwikkeld om dit associatieprobleem aan te pakken en betrouwbaarheidsintervallen te bieden. Maar in ruimtelijke omgevingen ontdekten MIT-onderzoekers dat deze betrouwbaarheidsintervallen volledig afwijkend kunnen zijn.
Wanneer variabelen zoals de luchtverontreinigingsniveaus of de neerslag op verschillende locaties veranderen, kunnen gangbare methoden voor het genereren van betrouwbaarheidsintervallen een hoog betrouwbaarheidsniveau claimen, terwijl de schatting er in feite volledig niet in slaagde de werkelijke waarde weer te geven. Deze gebrekkige betrouwbaarheidsintervallen kunnen de gebruiker ertoe verleiden een model te vertrouwen dat heeft gefaald.
Nadat ze dit tekort hadden geïdentificeerd, ontwikkelden de onderzoekers een nieuwe methode die is ontworpen om geldige betrouwbaarheidsintervallen te genereren voor problemen met gegevens die in de ruimte variëren. In simulaties en experimenten met echte gegevens was hun methode de enige techniek die consistent nauwkeurige betrouwbaarheidsintervallen genereerde.
Dit werk zou onderzoekers op gebieden als milieuwetenschappen, economie en epidemiologie kunnen helpen beter te begrijpen wanneer ze de resultaten van bepaalde experimenten moeten vertrouwen.
“Er zijn zoveel problemen waarbij mensen geïnteresseerd zijn in het begrijpen van verschijnselen in de ruimte, zoals het weer of bosbeheer. We hebben aangetoond dat er voor deze brede klasse van problemen geschiktere methoden zijn die ons betere prestaties, een beter begrip van wat er aan de hand is en resultaten die betrouwbaarder zijn, kunnen opleveren”, zegt Tamara Broderick, universitair hoofddocent aan de afdeling Elektrotechniek en Computerwetenschappen (EECS) van MIT, lid van het Laboratory for Information and Decision Systems (LIDS) en het Institute for Data, Systems, and Society, een dochteronderneming van het Computer Science and Artificial Intelligence Laboratory (CSAIL), en senior auteur van deze studie.
Broderick wordt op het papier vergezeld door co-hoofdauteurs David R. Burt, een postdoc, en Renato Berlinghieri, een afgestudeerde EECS-student; en Stephen Bates, assistent-professor in EECS en lid van LIDS. Het onderzoek werd onlangs gepresenteerd op de Conference on Neural Information Processing Systems.
Ongeldige aannames
Bij ruimtelijke associatie wordt bestudeerd hoe een variabele en een bepaalde uitkomst gerelateerd zijn over een geografisch gebied. Je zou bijvoorbeeld kunnen onderzoeken hoe de boombedekking in de Verenigde Staten zich verhoudt tot de hoogte.
Om dit soort problemen op te lossen, zou een wetenschapper observatiegegevens van veel locaties kunnen verzamelen en deze kunnen gebruiken om het verband te schatten op een andere locatie waar hij niet over gegevens beschikt.
De MIT-onderzoekers realiseerden zich dat bestaande methoden in dit geval vaak betrouwbaarheidsintervallen genereren die volkomen verkeerd zijn. Een model zou kunnen zeggen dat het er 95 procent zeker van is dat zijn schatting de werkelijke relatie tussen boombedekking en hoogte weergeeft, terwijl het die relatie helemaal niet weergeeft.
Na dit probleem te hebben onderzocht, stelden de onderzoekers vast dat de aannames waarop deze betrouwbaarheidsintervalmethoden vertrouwen, niet standhouden als de gegevens ruimtelijk variëren.
Aannames zijn als regels die moeten worden gevolgd om ervoor te zorgen dat de resultaten van een statistische analyse geldig zijn. Gangbare methoden voor het genereren van betrouwbaarheidsintervallen werken onder verschillende aannames.
Ten eerste gaan ze ervan uit dat de brongegevens, de observatiegegevens die zijn verzameld om het model te trainen, onafhankelijk en identiek verdeeld zijn. Deze aanname impliceert dat de kans dat de ene locatie in de data wordt opgenomen, geen invloed heeft op de vraag of een andere locatie wordt opgenomen. Maar de luchtsensoren van de Amerikaanse Environmental Protection Agency (EPA) worden bijvoorbeeld geplaatst met andere luchtsensorlocaties in gedachten.
Ten tweede gaan bestaande methoden er vaak van uit dat het model volkomen correct is, maar deze veronderstelling klopt in de praktijk nooit. Ten slotte gaan ze ervan uit dat de brongegevens vergelijkbaar zijn met de doelgegevens waarvan men wil schatten.
Maar in ruimtelijke omgevingen kunnen de brongegevens fundamenteel verschillen van de doelgegevens, omdat de doelgegevens zich op een andere locatie bevinden dan waar de brongegevens zijn verzameld.
Een wetenschapper zou bijvoorbeeld gegevens van EPA-vervuilingsmonitors kunnen gebruiken om een machinaal leermodel te trainen dat gezondheidsresultaten kan voorspellen in een landelijk gebied waar geen monitors zijn. Maar de EPA-vervuilingsmonitors worden waarschijnlijk in stedelijke gebieden geplaatst, waar meer verkeer en zware industrie is, dus de luchtkwaliteitsgegevens zullen heel anders zijn dan de luchtkwaliteitsgegevens in het plattelandsgebied.
In dit geval zijn de associatieschattingen op basis van de stedelijke gegevens vertekend omdat de doelgegevens systematisch verschillen van de brongegevens.
Een vlotte oplossing
De nieuwe methode voor het genereren van betrouwbaarheidsintervallen houdt expliciet rekening met deze potentiële vertekening.
In plaats van aan te nemen dat de bron- en doelgegevens vergelijkbaar zijn, gaan de onderzoekers ervan uit dat de gegevens soepel over de ruimte variëren.
Bij luchtvervuiling door fijne deeltjes zou je bijvoorbeeld niet verwachten dat het vervuilingsniveau in het ene stadsblok heel anders zal zijn dan het vervuilingsniveau in het volgende stadsblok. In plaats daarvan zouden de vervuilingsniveaus geleidelijk afnemen naarmate men zich van een vervuilingsbron verwijdert.
“Voor dit soort problemen is deze aanname van ruimtelijke gladheid geschikter. Het sluit beter aan bij wat er feitelijk in de gegevens gebeurt”, zegt Broderick.
Toen ze hun methode vergeleken met andere veelgebruikte technieken, ontdekten ze dat dit de enige was die consistent betrouwbare betrouwbaarheidsintervallen voor ruimtelijke analyses kon opleveren. Bovendien blijft hun methode betrouwbaar, zelfs als de waarnemingsgegevens door willekeurige fouten worden vertekend.
In de toekomst willen de onderzoekers deze analyse toepassen op verschillende soorten variabelen en andere toepassingen onderzoeken waar dit betrouwbaardere resultaten zou kunnen opleveren.
Dit onderzoek werd gedeeltelijk gefinancierd door een MIT Social and Ethical Responsibilities of Computing (SERC) startsubsidie, het Office of Naval Research, Generali, Microsoft en de National Science Foundation (NSF).


