Door Adam Zewe
In een gigantisch autonoom magazijn schieten honderden robots door de gangpaden terwijl ze artikelen verzamelen en distribueren om een gestage stroom klantbestellingen te vervullen. In deze drukke omgeving kunnen zelfs kleine files of kleine botsingen tot enorme vertragingen leiden.
Om een dergelijke lawine van inefficiënties te voorkomen, hebben onderzoekers van MIT en het technologiebedrijf Symbotic een nieuwe methode ontwikkeld die een vloot robots automatisch soepel laat bewegen. Hun methode leert welke robots op elk moment als eerste moeten gaan, op basis van hoe congestie ontstaat, en past zich aan om prioriteit te geven aan robots die op het punt staan vast te lopen. Op deze manier kan het systeem robots vooraf omleiden om knelpunten te voorkomen.
Het hybride systeem maakt gebruik van diepgaand versterkend leren, een krachtige kunstmatige intelligentiemethode voor het oplossen van complexe problemen, om erachter te komen welke robots prioriteit moeten krijgen. Vervolgens geeft een snel en betrouwbaar planningsalgoritme instructies aan de robots, waardoor ze snel kunnen reageren in voortdurend veranderende omstandigheden.
In simulaties die waren geïnspireerd op daadwerkelijke lay-outs van e-commerce-magazijnen, behaalde deze nieuwe aanpak een winst van ongeveer 25 procent in de doorvoer ten opzichte van andere methoden. Belangrijk is dat het systeem zich snel kan aanpassen aan nieuwe omgevingen met verschillende hoeveelheden robots of gevarieerde magazijnindelingen.
“Er zijn veel besluitvormingsproblemen in de productie en logistiek, waar bedrijven vertrouwen op algoritmen die zijn ontworpen door menselijke experts. Maar we hebben aangetoond dat we met de kracht van diepgaand leren bovenmenselijke prestaties kunnen bereiken. Dit is een veelbelovende aanpak, omdat in deze gigantische magazijnen zelfs een toename van de doorvoer met twee of drie procent een enorme impact kan hebben”, zegt Han Zheng, een afgestudeerde student aan het Laboratory for Information and Decision Systems (LIDS) aan het MIT en hoofdauteur van een artikel over deze nieuwe aanpak.
Zheng wordt op het papier vergezeld door Yining Ma, een LIDS-postdoc; Brandon Araki en Jingkai Chen van Symbotic; en senior auteur Cathy Wu, de Class of 1954 Career Development Associate Professor in Civil and Environmental Engineering (CEE) en het Institute for Data, Systems, and Society (IDSS) bij MIT, en lid van LIDS. Het onderzoek verschijnt vandaag in de Tijdschrift voor onderzoek naar kunstmatige intelligentie.
Robots omleiden
Het gelijktijdig coördineren van honderden robots in een e-commerce magazijn is geen gemakkelijke taak.
Het probleem is vooral ingewikkeld omdat het magazijn een dynamische omgeving is en robots voortdurend nieuwe taken krijgen nadat ze hun doelen hebben bereikt. Ze moeten snel worden omgeleid als ze de magazijnvloer verlaten en betreden.
Bedrijven maken vaak gebruik van algoritmen die zijn geschreven door menselijke experts om te bepalen waar en wanneer robots moeten bewegen om het aantal pakketten dat ze kunnen verwerken te maximaliseren.
Maar als er sprake is van opstoppingen of een aanrijding, heeft een bedrijf misschien geen andere keuze dan het hele magazijn urenlang stil te leggen om het probleem handmatig op te lossen.
“In deze context hebben we geen exacte voorspelling van de toekomst. We weten alleen wat de toekomst in petto heeft, in termen van de pakketten die binnenkomen of de distributie van toekomstige bestellingen. Het planningssysteem moet zich aanpassen aan deze veranderingen naarmate de magazijnactiviteiten doorgaan”, zegt Zheng.
De MIT-onderzoekers bereikten dit aanpassingsvermogen met behulp van machine learning. Ze begonnen met het ontwerpen van een neuraal netwerkmodel om observaties van de magazijnomgeving te maken en te beslissen hoe de robots prioriteit moesten krijgen. Ze trainen dit model met behulp van Deep Reinforcement Learning, een methode van vallen en opstaan waarbij het model robots leert besturen in simulaties die echte magazijnen nabootsen. Het model wordt beloond voor het nemen van beslissingen die de algehele doorvoer vergroten en tegelijkertijd conflicten vermijden.
Na verloop van tijd leert het neurale netwerk veel robots efficiënt te coördineren.
“Door interactie met simulaties die zijn geïnspireerd op echte magazijnindelingen, ontvangt ons systeem feedback die we gebruiken om de besluitvorming intelligenter te maken. Het getrainde neurale netwerk kan zich vervolgens aanpassen aan magazijnen met verschillende indelingen”, legt Zheng uit.
Het is ontworpen om de beperkingen en obstakels op de lange termijn op het pad van elke robot vast te leggen, terwijl ook rekening wordt gehouden met dynamische interacties tussen robots terwijl ze door het magazijn bewegen.
Door huidige en toekomstige robotinteracties te voorspellen, wil het model opstoppingen voorkomen voordat deze zich voordoen.
Nadat het neurale netwerk heeft besloten welke robots prioriteit moeten krijgen, maakt het systeem gebruik van een beproefd planningsalgoritme om elke robot te vertellen hoe hij van het ene punt naar het andere moet bewegen. Dit efficiënte algoritme zorgt ervoor dat de robots snel kunnen reageren in de veranderende magazijnomgeving.
Deze combinatie van methoden is cruciaal.
“Deze hybride aanpak bouwt voort op het werk van mijn groep over hoe je het beste van twee werelden kunt bereiken tussen machine learning en klassieke optimalisatiemethoden. Pure machine learning-methoden hebben nog steeds moeite om complexe optimalisatieproblemen op te lossen, en toch is het extreem tijd- en arbeidsintensief voor menselijke experts om effectieve methoden te ontwerpen. Maar samen kan het gebruik van door experts ontworpen methoden op de juiste manier de machine learning-taak enorm vereenvoudigen”, zegt Wu.
Het overwinnen van complexiteit
Nadat de onderzoekers het neurale netwerk hadden getraind, testten ze het systeem in gesimuleerde magazijnen die anders waren dan de magazijnen die het tijdens de training had gezien. Omdat industriële simulaties te inefficiënt waren voor dit complexe probleem, ontwierpen de onderzoekers hun eigen omgevingen om na te bootsen wat er in echte magazijnen gebeurt.
Gemiddeld bereikte hun hybride, op leren gebaseerde aanpak een 25 procent grotere doorvoer dan traditionele algoritmen en een willekeurige zoekmethode, in termen van het aantal pakketten dat per robot werd afgeleverd. Hun aanpak zou ook haalbare robotpadplannen kunnen opleveren die de door traditionele methoden veroorzaakte congestie kunnen overwinnen.
“Vooral wanneer de dichtheid van robots in het magazijn toeneemt, neemt de complexiteit exponentieel toe en beginnen deze traditionele methoden snel af te breken. In deze omgevingen is onze methode veel efficiënter”, zegt Zheng.
Hoewel hun systeem nog ver verwijderd is van implementatie in de echte wereld, benadrukken deze demonstraties de haalbaarheid en voordelen van het gebruik van een machine learning-geleide aanpak in magazijnautomatisering.
In de toekomst willen de onderzoekers taaktoewijzingen opnemen in de probleemformulering, omdat het bepalen welke robot elke taak zal voltooien, van invloed is op de verkeersopstoppingen. Ze zijn ook van plan hun systeem op te schalen naar grotere magazijnen met duizenden robots.


MIT-nieuws


