Onderzoekers van Meta, de Universiteit van Chicago en UC Berkeley hebben een nieuw raamwerk ontwikkeld dat de hoge kosten, de complexiteit van de infrastructuur en de onbetrouwbare feedback aanpakt die gepaard gaan met het gebruik van versterkend leren (RL) om agenten van grote taalmodellen (LLM) te trainen. Het raamwerk, DroomGymsimuleert een RL-omgeving om agenten te trainen voor complexe toepassingen. Naarmate het trainingsproces vordert, past het raamwerk de moeilijkheidsgraad van de taak dynamisch aan, waardoor de agent geleidelijk leert meer uitdagende problemen op te lossen naarmate deze verbetert.
Experimenten van het onderzoeksteam tonen aan dat DreamGym de RL-training aanzienlijk verbetert in zowel volledig synthetische omgevingen als in scenario’s waarin het model zijn gesimuleerde leerproces moet toepassen op de echte wereld. In omgevingen waar RL mogelijk maar duur is, komt het overeen met de prestaties van populaire algoritmen door alleen synthetische interacties te gebruiken, waardoor de kosten van gegevensverzameling en omgevingsinteractie aanzienlijk worden verlaagd.
Deze aanpak kan van cruciaal belang zijn voor bedrijven, omdat ze agenten kunnen trainen voor op maat gemaakte applicaties en tegelijkertijd de complexiteit van het opzetten en uitvoeren van live RL-omgevingen kunnen vermijden.
De uitdaging van het trainen van LLM-agenten
Versterkend leren is een sleuteltechniek voor het trainen van LLM’s om complexe taken in agentische omgevingen uit te voeren, zoals webnavigatie, gereedschapsgebruik en robotica. Het stelt modellen in staat te leren van directe interactie en ervaring, en gaat verder dan de statische datasets die in de pre-training worden gebruikt.
RL voor agenttraining blijft echter moeilijk. Toepassingen in de echte wereld omvatten vaak lange actiereeksen met schaarse signalen, wat betekent dat de agent pas een positief signaal ontvangt na een lange en correcte reeks acties.
Het verzamelen van voldoende diverse en gevalideerde gegevens is ook duur, omdat er vaak menselijke experts nodig zijn om taken te verifiëren en de uitkomsten te annoteren. En de infrastructuur die nodig is om de live-omgevingen voor grootschalige RL-training te creëren, kan onbetaalbaar complex en kostbaar zijn. Om nog maar te zwijgen van het feit dat interactie met live systemen risico’s met zich meebrengt, omdat verkeerde acties (zoals het verwijderen van een bestand) onherstelbare schade kunnen veroorzaken.
“Deze beperkingen maken het bouwen van algemene en schaalbare systemen voor het trainen van agenten met RL een open en urgente uitdaging”, schrijven de onderzoekers.
DreamGym daagt dat model rechtstreeks uit door vergelijkbare prestaties volledig in simulatie te leveren, waardoor de infrastructuurlast wordt weggenomen die de meeste ondernemingen ervan heeft weerhouden RL te adopteren – en teams een praktisch pad te geven om agenten te trainen zonder kostbare of risicovolle live-omgevingen aan te raken.
Hoe DreamGym werkt
De onderzoekers omschrijven DreamGym als een “uniform en schaalbaar RL-framework dat diverse ervaringsgegevens op een online manier synthetiseert om efficiënte en effectieve training van LLM-agenten mogelijk te maken.” Het is opgebouwd rond drie kerncomponenten die samenwerken om een gecontroleerde en effectieve trainingslus te creëren.
De eerste component is een ‘op redeneren gebaseerd ervaringsmodel’ dat de dynamiek van een doelomgeving vertaalt naar een tekstuele ruimte. Dit model fungeert als de simulator van de applicatieomgeving. In plaats van interactie met een kostbare echte omgeving, werkt de agent samen met dit model, dat consistente statusovergangen en feedback genereert op basis van de acties van de agent.
De onderzoekers beweren dat agententraining geen perfect realistische omgevingen nodig heeft, maar eerder gegevens die ‘voldoende divers, informatief en causaal gefundeerd’ zijn. Bij een webwinkeltaak synthetiseert het model bijvoorbeeld zuivere lijsten met elementen op de pagina in plaats van ruwe HTML-code te verwerken. Deze abstracte aanpak maakt het trainen van het ervaringsmodel zeer efficiënt, waarbij slechts een kleine hoeveelheid openbare gegevens nodig is.
Het tweede onderdeel is een ‘ervaringsherhalingsbuffer’, die fungeert als een dynamisch geheugen. Aan het begin van het trainingsproces wordt de buffer gevuld met offline gegevens om essentiële context te bieden en wordt deze voortdurend bijgewerkt met nieuwe synthetische trajecten die tijdens de training worden gegenereerd. Deze buffer helpt bij het sturen van de voorspellingen van het ervaringsmodel en zorgt ervoor dat de synthetische ervaringen divers en feitelijk gegrond blijven.
Het derde onderdeel, een ‘curriculumtaakgenerator’, werkt samen met het ervaringsmodel om op adaptieve wijze nieuwe taken te creëren die steeds uitdagender worden. Het identificeert taken waarbij de prestaties van de agent gemengd zijn (wat aangeeft dat ze moeilijk maar oplosbaar zijn) en genereert variaties om de capaciteiten van de agent te vergroten.
Samen creëren deze componenten een gesloten systeem voor schaalbare agenttraining. “Door interactie, geheugen en adaptieve online taakgeneratie te verenigen, pakt DreamGym de aanhoudende uitdagingen aan die de RL voor LLM-agententraining beperkt hebben: onbetaalbare kosten, schaarste aan diverse taken, onstabiele beloningssignalen en zware eisen aan de infrastructuur”, aldus de onderzoekers.
DreamGym in actie
De onderzoekers evalueerden DreamGym op basis van verschillende benchmarks voor agenten, waaronder WebShop (e-commerce), ALFWorld (belichaamde controle) en WebArena (realistische webinteractie). Ze gebruikten Lama 3 En Qwen 2.5 modellen als ruggengraat van agenten en vergeleek DreamGym met verschillende traditionele trainingsstrategieën. Deze omvatten offline methoden zoals begeleide fine-tuning (SFT) en directe voorkeursoptimalisatie (DPO), evenals online RL-algoritmen zoals Proximal Policy Optimization (PPO) en Group Relative Policy Optimization (GRPO), die agenten verbeteren door middel van live-omgevingsinteractie.
DreamGym toonde zijn grootste voordeel in omgevingen als WebArena, waar het opzetten van een grootschalige RL-infrastructuur moeilijk is. Agenten die volledig binnen DreamGym waren getraind, behaalden succespercentages die ruim 30% hoger waren dan de basismethoden, die worstelden met de schaarse beloningen en beperkte verkenning in de echte omgeving. De onderzoekers zeiden dat dit aantoont dat DreamGym een mechanisme is dat RL-training “haalbaar maakt in domeinen die voorheen hardnekkig waren vanwege inherente taak- en technische beperkingen.”
In omgevingen waar RL wordt ondersteund maar kostbaar is, presteren agenten die zijn getraind met DreamGym op hetzelfde niveau als degenen die zijn getraind met GRPO en PPO, maar zonder kostbare interacties met de externe omgeving. Het team introduceerde ook een sim-to-real-aanpak, DreamGym-S2R, waarbij een agent eerst wordt getraind in de synthetische omgeving en vervolgens wordt verfijnd op basis van een kleine hoeveelheid gegevens uit de echte wereld. Deze strategie leverde een prestatieverbetering van meer dan 40% op vergeleken met helemaal opnieuw trainen in de echte omgeving, terwijl minder dan 10% van de externe gegevens werd gebruikt. Dit biedt een schaalbare “warme start” voor het trainen van agenten voor algemene doeleinden.
Ten slotte vertoonde het raamwerk een sterke generalisatie. Een agent die is opgeleid voor taken in het ene domein, zoals WebShop, zou zijn geleerde vaardigheden met succes kunnen overbrengen naar een ander domein, zoals WebArena. De onderzoekers suggereren dat dit komt doordat DreamGym-agenten leren in een “abstracte meta-representatieruimte, waardoor de agent domein-agnostische gedragsprioriteiten kan leren in plaats van taakspecifieke patronen te onthouden.”
Terwijl DreamGym zich nog in de beginfase bevindt, laat het zien dat gesimuleerde omgevingen grote winsten kunnen opleveren bij het trainen van agenten. In de praktijk zou een onderneming een kleine hoeveelheid trajecten en beschrijvingen kunnen verzamelen voor de taken die zij wil automatiseren. Het kan dit kleine zaadje vervolgens gebruiken om de DreamGym-frameworks op te starten voor de schaalbare en voorbeeldefficiënte training van agenten.


