Home Nieuws Het nieuwe raamwerk van Google helpt AI-agenten hun computer- en toolbudget verstandiger...

Het nieuwe raamwerk van Google helpt AI-agenten hun computer- en toolbudget verstandiger te besteden

7
0
Het nieuwe raamwerk van Google helpt AI-agenten hun computer- en toolbudget verstandiger te besteden

In een nieuw papier waarin het gebruik van tools bij agenten met een groot taalmodel (LLM) wordt bestudeerd, hebben onderzoekers van Google en UC Santa Barbara een raamwerk ontwikkeld waarmee agenten efficiënter gebruik kunnen maken van tool- en computerbudgetten. De onderzoekers introduceren twee nieuwe technieken: een eenvoudige ‘Budget Tracker’ en een uitgebreider raamwerk genaamd ‘Budget Aware Test-time Scaling’. Deze technieken maken agenten expliciet bewust van hun resterende redenering en gebruiksmogelijkheden.

Omdat AI-agenten afhankelijk zijn van tool-oproepen om in de echte wereld te kunnen werken, gaat het schalen van testtijden minder over slimmere modellen en meer over het beheersen van kosten en latentie.

Voor bedrijfsleiders en ontwikkelaars bieden budgetbewuste schaaltechnieken een praktische manier om effectieve AI-agents in te zetten zonder te maken te krijgen met onvoorspelbare kosten of een afnemend rendement op computeruitgaven.

De uitdaging van het schalen van het gebruik van tools

Traditioneel Schaling van de testtijd richt zich op het langer laten ‘denken’ van modellen. Voor agentische taken zoals surfen op het web bepaalt het aantal tooloproepen echter direct de diepte en breedte van de verkenning.

Dit introduceert aanzienlijke operationele overhead voor bedrijven. “Tooloproepen zoals browsen op webpagina’s resulteren in meer tokenverbruik, vergroten de contextlengte en introduceren extra tijdlatentie”, vertelden Zifeng Wang en Tengxiao Liu, co-auteurs van het artikel, aan VentureBeat. “Toolcalls brengen op zichzelf extra API-kosten met zich mee.”

De onderzoekers ontdekten dat het eenvoudigweg toekennen van meer testtijdbronnen aan agenten geen betere prestaties garandeert. “Als de agent bij een diepgaande onderzoekstaak geen gevoel voor budget heeft, gaat het vaak blindelings ten onder”, legden Wang en Liu uit. “Het vindt één enigszins verwante aanwijzing, besteedt vervolgens 10 of 20 tool-calls aan het graven ervan, om vervolgens te beseffen dat het hele pad een doodlopende weg was.”

Resources optimaliseren met Budget Tracker

Om te evalueren hoe ze de budgetten voor gereedschapsgebruik kunnen optimaliseren, probeerden de onderzoekers eerst een lichtgewicht aanpak genaamd ‘Budget Tracker’. Deze module fungeert als een plug-in die de agent een continu signaal geeft over de beschikbaarheid van resources, waardoor budgetbewust gebruik van de tool mogelijk wordt gemaakt.

Het team veronderstelde dat “het geven van expliciete budgetsignalen het model in staat stelt de beperkingen van de middelen te internaliseren en de strategie aan te passen zonder dat aanvullende training nodig is.”

Budget Tracker werkt puur op promptniveau en is daardoor eenvoudig te implementeren. (Het artikel geeft volledige details over de aanwijzingen die voor Budget Tracker worden gebruikt, waardoor het eenvoudig te implementeren is.)

Budget Tracker (bron: arXiv)

In de implementatie van Google biedt de tracker een korte beleidsrichtlijn waarin de budgetregimes worden beschreven en bijbehorende aanbevelingen voor het gebruik van tools. Bij elke stap van het responsproces maakt Budget Tracker de agent expliciet bewust van zijn resourceverbruik en het resterende budget, waardoor hij de volgende redeneerstappen kan bepalen op basis van de bijgewerkte resourcestatus.

Om dit te testen experimenteerden de onderzoekers met twee paradigma’s: sequentiële schaling, waarbij het model iteratief zijn output verfijnt, en parallelle schaling, waarbij meerdere onafhankelijke runs worden uitgevoerd en geaggregeerd. Ze voerden experimenten uit met zoekagenten die waren uitgerust met zoek- en bladertools volgens een ReAct-achtige lus. ReAct (Reasoning + Acting) is een populaire methode waarbij het model afwisselt tussen intern denken en extern handelen. Om een ​​echte trend op het gebied van de kosten-prestatieschaal te traceren, ontwikkelden ze een uniforme kostenstatistiek die gezamenlijk rekening houdt met de kosten van zowel het interne tokenverbruik als de externe tool-interacties.

Ze testten Budget Tracker op drie informatiezoekende QA-datasets waarvoor extern zoeken nodig was, waaronder BrowseComp en HLE-Search, met behulp van modellen zoals Tweeling 2.5 ProGemini 2.5 Flash, en Claude Sonnet4. Uit de experimenten blijkt dat deze eenvoudige plug-in de prestaties verbetert bij verschillende budgetbeperkingen.

Prestaties van Budget Tracker

Budget Tracker blijft verbeteren terwijl ReAct een bepaalde budgetdrempel bereikt (bron: arXiv)

“Het toevoegen van Budget Tracker bereikt een vergelijkbare nauwkeurigheid met 40,4% minder zoekopdrachten, 19,9% minder browse-oproepen en een verlaging van de totale kosten… met 31,3%”, vertelden de auteurs aan VentureBeat. Ten slotte bleef Budget Tracker opschalen naarmate het budget toenam, terwijl gewone ReAct na een bepaalde drempel stagneerde.

BATS: Een uitgebreid raamwerk voor budgetbewuste schaalvergroting

Om de optimalisatie van het gebruik van tools verder te verbeteren, introduceerden de onderzoekers Budget Aware Test-time Scaling (BATS), een raamwerk dat is ontworpen om de prestaties van agenten binnen een bepaald budget te maximaliseren. BATS houdt een continu signaal bij van de resterende hulpbronnen en gebruikt deze informatie om het gedrag van de agent dynamisch aan te passen terwijl deze zijn reactie formuleert.

BATS gebruikt meerdere modules om de acties van de agent te orkestreren. Een planningsmodule past de inspanning stapsgewijs aan om het huidige budget te evenaren, terwijl een verificatiemodule beslist of er “dieper moet worden gegraven” in een veelbelovende lead of moet worden “gepivot” naar alternatieve paden op basis van de beschikbaarheid van middelen.

Vleermuizen

Budgetbewust Test-time Scaling-framework (bron: arXiv)

Gegeven een informatievragende vraag en een budget voor de tool-call, begint BATS met het gebruik van de planningsmodule om een ​​gestructureerd actieplan te formuleren en te beslissen welke tools moeten worden ingezet. Wanneer instrumenten worden aangeroepen, worden hun reacties toegevoegd aan de redeneervolgorde om de context van nieuw bewijsmateriaal te voorzien. Wanneer de agent een kandidaat-antwoord voorstelt, verifieert de verificatiemodule dit en beslist of de huidige reeks moet worden voortgezet of een nieuwe poging moet worden ondernomen met het resterende budget.

Het iteratieve proces eindigt wanneer de gebudgetteerde middelen zijn uitgeput, waarna een LLM-als-rechter het beste antwoord selecteert uit alle geverifieerde antwoorden. Tijdens de uitvoering werkt de Budget Tracker bij elke iteratie voortdurend zowel het resourcegebruik als het resterende budget bij.

De onderzoekers testten BATS op de BrowseComp-, BrowseComp-ZH- en HLE-Search-benchmarks met basislijnen, waaronder standaard ReAct en verschillende op training gebaseerde agenten. Uit hun experimenten blijkt dat BATS hogere prestaties behaalt, minder tool calls gebruikt en lagere totale kosten met zich meebrengt dan concurrerende methoden. Met Gemini 2.5 Pro als ruggengraat behaalde BATS een nauwkeurigheid van 24,6% op BrowseComp vergeleken met 12,6% voor standaard ReAct, en 27,0% op HLE-Search vergeleken met 20,5% voor ReAct.

BATS verbetert niet alleen de effectiviteit onder budgetbeperkingen, maar levert ook betere afwegingen tussen kosten en prestaties op. Op de BrowseComp-dataset behaalde BATS bijvoorbeeld een hogere nauwkeurigheid tegen een kostprijs van ongeveer 23 cent vergeleken met een parallelle schalingsbasislijn die meer dan 50 cent nodig had om een ​​vergelijkbaar resultaat te bereiken.

BATS-prestaties en kosten

BATS is schaalbaar en biedt betere kosten/nauwkeurigheidsprestaties in vergelijking met basislijnen (bron: arXiv)

Volgens de auteurs maakt deze efficiëntie voorheen dure workflows levensvatbaar. “Dit ontsluit een reeks data-intensieve bedrijfsapplicaties met een lange horizon… zoals complex codebase-onderhoud, due diligence-onderzoeken, onderzoek naar het concurrentielandschap, compliance-audits en meerstapsdocumentanalyse”, zeggen ze.

Nu bedrijven agenten willen inzetten die hun eigen middelen beheren, zal het vermogen om nauwkeurigheid en kosten in evenwicht te brengen een kritische ontwerpvereiste worden.

“Wij geloven dat de relatie tussen redeneren en economie onlosmakelijk met elkaar verbonden zal worden”, aldus Wang en Liu. “In de toekomst moeten (modellen) redeneren over waarde.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in