Home Nieuws Naast wiskunde en coderen: het nieuwe RL-framework helpt LLM-agenten te trainen voor...

Naast wiskunde en coderen: het nieuwe RL-framework helpt LLM-agenten te trainen voor complexe, praktijkgerichte taken

4
0
Naast wiskunde en coderen: het nieuwe RL-framework helpt LLM-agenten te trainen voor complexe, praktijkgerichte taken

Onderzoekers van de Universiteit voor Wetenschap en Technologie van China hebben een nieuw ontwikkeld versterkend leren (RL) raamwerk dat helpt bij het trainen van grote taalmodellen (LLM’s) voor complexe agentische taken die verder gaan dan goed gedefinieerde problemen zoals wiskunde en coderen.

Hun raamwerk, Agent-R1is compatibel met populaire RL-algoritmen en vertoont aanzienlijke verbeteringen bij redeneertaken waarvoor meerdere ophaalfasen en multi-turn-interacties met tools nodig zijn.

Het raamwerk is gebouwd op een herdefinitie van het RL-paradigma, waarbij rekening wordt gehouden met de dynamische aard van agentische toepassingen die interactie vereisen met evoluerende omgevingen en imperfecte informatie. Deze framing lijkt veel meer op toepassingen in de echte wereld en kan belangrijke toepassingen hebben voor agentische taken in bedrijfsomgevingen.

Heroverweging van versterkend leren voor agenten

RL is een hoeksteen geworden van het trainen van LLM’s voor goed gedefinieerde redeneringstaken. Op gebieden als wiskunde en coderen ontvangt het model een duidelijk signaal: het antwoord is goed of fout. Dit maakt het relatief eenvoudig om zijn gedrag te belonen of te bestraffen.

Maar deze aanpak kampt met agentische taken waarvoor modellen nodig zijn om in interactieve omgevingen te werken, dynamische herinneringen aan gesprekken te ontwikkelen, in meerdere stappen te redeneren en te reageren op onvoorspelbare feedback. Het trainen van agenten met RL voor deze scenario’s brengt unieke uitdagingen met zich mee, vooral bij interacties met meerdere beurten waarbij het ontwerpen van effectieve beloningen complex is en de getrainde agent er vaak niet in slaagt te generaliseren naar de rommelige, onvoorspelbare aard van echte omgevingen.

Om deze uitdagingen aan te pakken, hebben de onderzoekers van de Universiteit voor Wetenschap en Technologie het fundamentele raamwerk van RL opnieuw bekeken, bekend als de Markov-beslissingsproces (MDP). Een MDP modelleert de besluitvorming met behulp van vier sleutelcomponenten: een toestandsruimte (de reeks mogelijke toestanden waarin een agent zich kan bevinden); een actieruimte (wat de agent kan doen); een waarschijnlijkheid van een toestandsovergang (de toestand waartoe een actie waarschijnlijk zal leiden); en een beloningsfunctie (of de uitkomst goed of slecht is). In het artikel wordt voorgesteld dit raamwerk uit te breiden zodat het beter geschikt is voor LLM-agenten.

In de nieuwe formulering wordt de toestandsruimte uitgebreid en omvat niet alleen de huidige toestand (de huidige reeks tokens gegenereerd door het model), maar de hele geschiedenis van interacties en omgevingsfeedback. Acties gaan nog steeds fundamenteel over het genereren van tekst, maar specifieke reeksen tekst kunnen nu externe tools activeren, zoals een API-aanroep. Toestandsovergangen worden onvoorspelbaar of ‘stochastisch’, omdat de uitkomst niet alleen afhangt van de tokens die het model voorspelt, maar ook van de reactie van de omgeving, die afhangt van externe factoren. Ten slotte wordt het beloningssysteem gedetailleerder en omvat het tussentijdse ‘procesbeloningen’ voor het succesvol voltooien van stappen onderweg, in plaats van slechts een enkele beloning helemaal aan het einde. Dit zorgt voor frequentere en preciezere begeleiding van de agent tijdens de training.

Dit laatste stukje is vooral belangrijk en behandelt het probleem van de ‘schaarse beloning’ waarmee de meeste RL-frameworks worden geconfronteerd. Wanneer de agent een enkel beloningssignaal ontvangt op basis van de uiteindelijke uitkomst, leert hij niet van de goede en verkeerde tussenstappen die hij onderweg heeft gezet. Procesbeloningen lossen dit probleem op door feedbacksignalen te geven op deze tussenstappen, waardoor het leerproces veel efficiënter wordt.

“Deze uitbreidingen zijn cruciaal voor het mogelijk maken van versterkende leeralgoritmen om geavanceerde agenten te trainen die in staat zijn tot complex, meerstaps redeneren en interactie binnen dynamische omgevingen”, schrijven de onderzoekers in hun paper.

Het Agent-R1-framework

Op basis van de uitgebreide MDP-definitie ontwikkelden de onderzoekers Agent-R1een flexibel en gebruiksvriendelijk trainingsplatform voor op RL gebaseerde LLM-agenten. Het breidt traditionele single-turn RL-frameworks uit om het multi-turn, interactieve karakter van agentische taken aan te kunnen, waardoor naadloze integratie met diverse omgevingen mogelijk wordt.

Het belangrijkste verschil ligt in de ‘uitrolfase’, waarin de agent reacties genereert. Bij single-turn RL genereert het model één keer een reactie. Bij multi-turn RL omvat het proces een reeks complexe heen-en-weer-interacties.

Agent-R1-framework (bron: arXiv)

Agent-R1 realiseert deze flexibele multi-turn uitrol met twee kernmodules: Tool en ToolEnv. De Tool-module fungeert als uitvoerder voor specifieke acties, zoals het aanroepen van een API of het benaderen van een database. Wanneer een Tool wordt aangeroepen, voert hij zijn actie uit en retourneert het directe, ruwe resultaat. De ToolEnv-module is daarentegen de orkestrator en tolk. Het neemt de uitvoer van de tool en bepaalt hoe die uitkomst de toestand van de agent en de algemene taakvoortgang beïnvloedt. ToolEnv ​​beheert statusovergangen, berekent beloningssignalen op basis van toolresultaten en verpakt de nieuwe statusinformatie voor de agent.

Kortom, wanneer een actie is voltooid, rapporteert de Tool ‘wat er is gebeurd’, terwijl ToolEnv ​​dicteert ‘wat deze uitkomst betekent voor de agent en de taak’.

Agent-R1 in actie

De onderzoekers hebben Agent-R1 getest op de uitdagende taak van het beantwoorden van vragen in meerdere stappen, waarvoor complex redeneren, het ophalen van informatie over meerdere documenten en besluitvorming in meerdere stappen vereist zijn. Ze trainden Qwen2.5-3B-Instruct op QA-datasets en evalueerden de prestaties ervan op de Hotpotqa En 2WikiMultihopQA datasets. Ze testten het ook op de Musique-dataset, die buiten het domein viel van de taken waarvoor de agent was getraind.

Ze vergeleken verschillende RL-algoritmen die met Agent-R1 waren getraind met twee basislijnen: Naive RAG, een single-pass ophaalmethode waarbij een LLM antwoordt op basis van één set opgehaalde documenten, en Base Tool Call, dat gebruikmaakt van de eigen functie-aanroepmogelijkheden van het model zonder gespecialiseerde RL-training.

Agent-R1-prestaties

Modellen die zijn getraind met het Agent-R1-framework (onder de horizontale lijn) presteren aanzienlijk beter dan de basislijnen (bron: arXiv)

De resultaten toonden aan dat alle RL-getrainde agenten substantieel beter presteerden dan de uitgangswaarden. GRPO, een RL-algoritme dat wordt gebruikt in geavanceerde redeneermodellen zoals DeepSeek-R1leverde de beste algehele prestatie.

“Deze resultaten valideren op robuuste wijze de werkzaamheid van Agent-R1 bij het trainen van krachtige LLM-agents via end-to-end RL, en laten consistente, substantiële winsten zien ten opzichte van de basislijnen in diverse datasets en RL-algoritmen”, schrijven de onderzoekers.

Deze bevindingen kunnen van groot belang zijn voor ondernemingen, waar er een sterke drang bestaat om RL en redenering toe te passen buiten welomschreven domeinen. Een raamwerk dat is ontworpen om rommelige, multi-turn interacties met gebruikers en dynamische omgevingen aan te kunnen, kan de weg vrijmaken voor nieuwe agenten die in staat zijn complexe problemen in de echte wereld op te lossen.

“We hopen dat Agent-R1 een basis biedt voor toekomstig werk aan schaalbare en uniforme RL-training voor agentic LLM’s”, concluderen de onderzoekers.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in