Home Nieuws Hoe RecursiveMAS de inferentie van meerdere agenten met 2,4x versnelt en het...

Hoe RecursiveMAS de inferentie van meerdere agenten met 2,4x versnelt en het tokengebruik met 75% vermindert

4
0
Hoe RecursiveMAS de inferentie van meerdere agenten met 2,4x versnelt en het tokengebruik met 75% vermindert

Een van de belangrijkste uitdagingen van de huidige multi-agent AI-systemen is dat ze communiceren door tekstreeksen te genereren en te delen, wat latentie introduceert, de tokenkosten opdrijft en het moeilijk maakt om het hele systeem als een samenhangende eenheid te trainen.

Om deze uitdaging te overwinnen, ontwikkelden onderzoekers van de Universiteit van Illinois Urbana-Champaign en Stanford University RecursiefMEEReen raamwerk waarmee agenten kunnen samenwerken en informatie kunnen verzenden door ruimte in te sluiten in plaats van tekst. Deze verandering resulteert in zowel efficiëntie- als prestatiewinst.

Experimenten tonen aan dat RecursiveMAS nauwkeurigheidsverbeteringen behaalt in complexe domeinen zoals het genereren van code, medisch redeneren en zoeken, terwijl het ook de inferentiesnelheid verhoogt en het tokengebruik terugdringt.

RecursiveMAS is aanzienlijk goedkoper om te trainen dan standaard volledige fine-tuning- of LoRA-methoden, waardoor het een schaalbare en kosteneffectieve blauwdruk is voor aangepaste multi-agentsystemen.

De uitdagingen van het verbeteren van multi-agentsystemen

Multi-agentsystemen kan helpen complexe taken aan te pakken die systemen met één agent moeilijk aankunnen. Bij het schalen van multi-agentsystemen voor toepassingen in de echte wereld is het een grote uitdaging om het systeem in de loop van de tijd te laten evolueren, verbeteren en aanpassen aan verschillende scenario’s.

Aanpassing op basis van prompts verbetert de interacties tussen agenten door de gedeelde context die aan de agenten wordt geboden, iteratief te verfijnen. Door de aanwijzingen bij te werken, fungeert het systeem als regisseur en begeleidt het de agenten om reacties te genereren die beter aansluiten bij het overkoepelende doel. De fundamentele beperking is dat de mogelijkheden van de modellen die ten grondslag liggen aan elke agent statisch blijven.

Een meer geavanceerde aanpak is om de agenten te trainen door de gewichten van de onderliggende modellen bij te werken. Het trainen van een heel systeem van agenten is moeilijk omdat het bijwerken van alle parameters in meerdere modellen rekenkundig niet triviaal is.

Zelfs als een technisch team zich ertoe verbindt hun modellen te trainen, zorgt de standaardmethode waarmee agents communiceren via op tekst gebaseerde interacties voor grote knelpunten. Omdat agenten afhankelijk zijn van het sequentieel genereren van tekst, veroorzaakt dit latentie omdat elk model moet wachten tot het vorige model klaar is met het genereren van de tekst voordat het met zijn eigen verwerking kan beginnen.

Het is zeer inefficiënt om modellen te dwingen hun tussenredenering token voor token te spellen, zodat het volgende model deze kan lezen. Het verhoogt het tokengebruik ernstig, drijft de computerkosten op en zorgt ervoor dat iteratief leren in het hele systeem pijnlijk traag op te schalen is.

Hoe RecursieveMAS werkt

In plaats van te proberen elke agent als een geïsoleerde, op zichzelf staande component te verbeteren, is RecursiveMAS ontworpen om het volledige multi-agentsysteem mee te ontwikkelen en te schalen als één geïntegreerd geheel.

Het raamwerk is geïnspireerd op recursieve taalmodellen (RLM’s). In een standaardtaalmodel stromen gegevens lineair door een stapel afzonderlijke lagen. Een recursief taalmodel daarentegen hergebruikt een reeks gedeelde lagen die de gegevens verwerken en terugkoppelen naar zichzelf. Door de berekening in een lus te plaatsen, kan het model zijn redenering verdiepen zonder parameters toe te voegen.

RecursieveMAS-architectuur (bron: arXiv)

RecursiveMAS breidt dit schaalprincipe uit van een enkel model naar een architectuur met meerdere agenten die fungeert als een verenigd recursief systeem. In deze opzet functioneert elke agent als een laag in een recursief taalmodel. In plaats van tekst te genereren, geven de agenten hun continue latente representaties iteratief door aan de volgende agent in de reeks, waardoor een verborgen stroom van informatie ontstaat die door het systeem stroomt.

Deze latente overdracht gaat door alle agenten heen. Wanneer de laatste agent zijn verwerking heeft voltooid, worden de latente outputs rechtstreeks teruggekoppeld naar de allereerste agent, waarmee een nieuwe recursieronde wordt gestart.

Deze structuur maakt het mogelijk dat het hele multi-agent systeem kan communiceren, reflecteren en zijn collectieve redenering kan verfijnen over meerdere rondes, volledig in de latente ruimte, waarbij alleen de allerlaatste agent een tekstuele output produceert in de laatste ronde. Het is alsof de agenten telepathisch communiceren als een verenigd geheel en de laatste agent het uiteindelijke antwoord als tekst geeft.

De architectuur van latente samenwerking

Om continue latente samenwerking in de ruimte mogelijk te maken, introduceren de auteurs een gespecialiseerde architecturale component genaamd de RecursiveLink. Dit is een lichtgewicht, tweelaagse module die is ontworpen om de latente toestanden van een model te verzenden en te verfijnen in plaats van het te dwingen tekst te decoderen.

De verborgen toestanden op de laatste laag van een taalmodel bevatten de rijke, semantische representatie van het redeneerproces ervan. De RecursiveLink is ontworpen om deze hoogdimensionale informatie te bewaren en van de ene inbeddingsruimte naar de andere te verzenden.

Om de kosten van het bijwerken van elke parameter in meerdere grote taalmodellen te vermijden, houdt het raamwerk de parameters van de modellen bevroren. In plaats daarvan optimaliseert het het systeem door alleen de parameters van de RecursiveLink-modules te trainen.

Recursief leren

Recursief leerproces (bron: arXiv)

Om zowel intern redeneren als externe communicatie mogelijk te maken, gebruikt het systeem twee varianten van de module. De innerlijke RecursiveLink werkt in een agent tijdens de redeneerfase. Het neemt de nieuw gegenereerde inbedding van het model en brengt deze direct terug in zijn eigen invoerinbeddingsruimte. Hierdoor kan de agent continu een stroom latente gedachten genereren zonder afzonderlijke teksttokens te genereren.

De buitenste RecursiveLink dient als brug tussen agenten. Omdat agenten in een systeem in de echte wereld verschillende modelarchitecturen en -groottes kunnen gebruiken, hebben hun interne inbeddingsruimten totaal verschillende afmetingen. De buitenste RecursiveLink bevat een extra laag die is ontworpen om de inbedding van de verborgen dimensie van de ene agent te matchen met de inbeddingsruimte van de volgende agent.

Tijdens de training worden eerst de innerlijke schakels onafhankelijk getraind om het vermogen van elke agent om in voortdurende latente inbedding te denken, op te warmen. Vervolgens gaat het systeem naar de outside-loop-training, waarbij de diverse, bevroren modellen in een lus aan elkaar worden gekoppeld, en het systeem wordt geëvalueerd op basis van de uiteindelijke tekstuitvoer van de laatste agent.

Het enige dat tijdens het trainingsproces wordt bijgewerkt, zijn de RecursiveLink-parameters en de oorspronkelijke modelgewichten blijven ongewijzigd, vergelijkbaar met aanpassing op laag niveau (LoRA). Een ander voordeel van dit systeem wordt van kracht wanneer u meerdere agenten bovenop hetzelfde backbone-model heeft.

Als u een systeem met meerdere agenten heeft waarbij twee agenten zijn gebouwd op exact hetzelfde basismodel en verschillende rollen vervullen, hoeft u niet twee exemplaren van het model in uw GPU-geheugen te laden en hoeft u ze ook niet afzonderlijk te trainen. De agenten zullen dezelfde ruggengraat delen als de hersenen en de RecursiveLink gebruiken als bindweefsel.

RecursieveMAS in actie

De onderzoekers evalueerden RecursiveMAS op basis van negen benchmarks, waaronder wiskunde, wetenschap en geneeskunde, het genereren van code en het beantwoorden van vragen op basis van zoekopdrachten. Ze creëerden een multi-agentsysteem met behulp van modellen met open gewicht, waaronder Qwen, Llama-3, Gemma3 en Mistral. Aan deze modellen werden rollen toegewezen om verschillende samenwerkingspatronen voor agenten te vormen, zoals sequentieel redeneren en samenwerking tussen deskundigen.

gevolgtrekking versnellen

RecursiveMAS verbetert de inferentiesnelheid met 1,2-2,2x (bron: GitHub)

RecursiveMAS werd vergeleken met baselines onder identieke trainingsbudgetten, inclusief zelfstandige modellen verbeterd met LoRA of volledig gecontroleerde verfijning, alternatieve multi-agent-frameworks zoals Mixture-of-Agents en TextGrad, en recursieve baselines zoals LoopLM. Het werd ook vergeleken met Recursive-TextMAS, dat dezelfde recursieve lusstructuur gebruikt als RecursiveMAS, maar de agenten dwingt expliciet via tekst te communiceren.

RecursiveMAS behaalde een gemiddelde nauwkeurigheidsverbetering van 8,3% vergeleken met de sterkste basislijnen van de benchmarks. Het blonk vooral uit bij taken die veel redeneren, en presteerde 18,1% beter dan op tekst gebaseerde optimalisatiemethoden zoals TextGrad op AIME2025 en 13% op AIME2026.

symbolische versnelling

RecursiveMAS vermindert het tokenverbruik tot 75% (bron: GitHub)

Omdat het vermijdt dat bij elke stap tekst wordt gegenereerd, heeft RecursiveMAS een end-to-end inferentiesnelheid van 1,2x tot 2,4x bereikt. RecursieveMAS is ook veel tokenefficiënter dan het alternatief. Vergeleken met de op tekst gebaseerde Recursive-TextMAS vermindert het tokengebruik met 34,6% in de eerste ronde van de recursie, en in ronde drie wordt een tokenreductie van 75,6% bereikt. RecursieveMAS bleek ook opmerkelijk goedkoop om te trainen. Omdat het alleen de lichtgewicht RecursiveLink-modules bijwerkt, die uit grofweg 13 miljoen parameters of ongeveer 0,31% van de trainbare parameters van de bevroren modellen bestaan, vereist het het GPU-geheugen met de laagste piek en worden de trainingskosten met meer dan de helft verlaagd vergeleken met volledige fijnafstemming.

adoptie door ondernemingen

De efficiëntieverbeteringen – lager tokenverbruik, verminderde GPU-geheugenvereisten en snellere gevolgtrekking – zijn bedoeld om complexe meerstaps agentworkflows levensvatbaar te maken in productieomgevingen zonder de rekenoverhead die de implementatie van bedrijfsagenten beperkt. De onderzoekers hebben het vrijgegeven code En getrainde modelgewichten onder de Apache 2.0-licentie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in