Home Nieuws Alibaba’s Metis-agent reduceert overbodige AI-tooloproepen van 98% naar 2% – en wordt...

Alibaba’s Metis-agent reduceert overbodige AI-tooloproepen van 98% naar 2% – en wordt daarbij nauwkeuriger

5
0
Alibaba’s Metis-agent reduceert overbodige AI-tooloproepen van 98% naar 2% – en wordt daarbij nauwkeuriger

Een van de belangrijkste uitdagingen bij het bouwen van effectieve AI-agenten is hen te leren kiezen tussen het gebruik van externe tools of het vertrouwen op hun interne kennis. Maar grote taalmodellen zijn vaak getraind om blindelings tools aan te roepen, wat knelpunten in de latentie, onnodige API-kosten en verslechterde redeneringen veroorzaakt door omgevingsgeluid veroorzaakt.

Om deze uitdaging te overwinnen, introduceerden onderzoekers van Alibaba Hiërarchische ontkoppelde beleidsoptimalisatie (HDPO), een raamwerk voor versterkend leren dat agenten traint om zowel uitvoeringsefficiëntie als taaknauwkeurigheid in evenwicht te brengen.

Metis, een multimodaal model dat ze hebben getraind met behulp van dit raamwerk, reduceert het aantal overbodige tool-aanroepen van 98% naar slechts 2%, terwijl het een nieuwe state-of-the-art redeneernauwkeurigheid creëert voor belangrijke benchmarks in de industrie. Dit raamwerk helpt bij het creëren van AI-agenten die niet triggerhappy zijn en weten wanneer ze geen tools moeten gebruiken, waardoor de ontwikkeling van responsieve en kosteneffectieve agentische systemen mogelijk wordt.

Het metacognitieve tekort

De huidige agentische modellen worden geconfronteerd met wat de onderzoekers een ‘diepgaand metacognitief tekort’ noemen. De modellen vinden het moeilijk om te beslissen wanneer ze hun interne parametrische kennis moeten gebruiken en wanneer ze een extern hulpprogramma moeten bevragen. Het resultaat is dat ze blindelings tools en API’s aanroepen, zoals zoeken op internet of code uitvoeren, zelfs als de prompt van de gebruiker al alle benodigde informatie bevat om de taak op te lossen.

Dit trigger-happy tool-calling-gedrag creëert ernstige operationele hindernissen voor toepassingen in de echte wereld. Omdat de modellen zijn getraind om zich bijna volledig te concentreren op het voltooien van taken, staan ​​ze onverschillig tegenover latentie. Deze agenten hebben vaak exorbitante tarieven voor toolcalls. Elke onnodige externe API-aanroep introduceert een knelpunt in de seriële verwerking, waardoor een technisch capabele AI verandert in een traag systeem dat gebruikers frustreert en toolbudgetten verbrandt.

Tegelijkertijd vertaalt het verbranden van computerbronnen door overmatig gebruik van tools zich niet in een betere redenering. Redundante tool-interacties injecteren ruis in de context van het model. Dit geluid kan het model afleiden, een overigens gezonde redenering doen ontsporen en de uiteindelijke output actief verslechteren.

Om de latentie- en kostenproblemen van het blind aanroepen van tools aan te pakken, probeerden eerdere methoden voor versterkend leren overmatig gereedschapsgebruik te bestraffen door taaknauwkeurigheid en uitvoeringsefficiëntie te combineren in één beloningssignaal. Dit verstrengelde ontwerp creëert echter een onoplosbaar optimalisatiedilemma. Als de efficiëntiestraf te agressief is, wordt het model te conservatief en onderdrukt het het gebruik van essentiële hulpmiddelen, waardoor de correctheid bij lastige taken wordt opgeofferd. Omgekeerd, als de straf mild is, verliest het optimalisatiesignaal zijn waarde en voorkomt het overmatig gebruik van gereedschap bij eenvoudigere taken niet.

Klassieke trainingsalgoritmen gebruiken samengestelde beloningen die nauwkeurigheid en efficiëntie combineren (bron: arXiv)

Bovendien creëert deze gedeelde beloning semantische ambiguïteit, waarbij een onnauwkeurig traject zonder gereedschapsoproepen dezelfde beloning zou kunnen opleveren als een nauwkeurig traject met overmatig gereedschapsgebruik. Omdat de trainingssignalen voor nauwkeurigheid en efficiëntie met elkaar verstrengeld raken, kan het model niet leren het gebruik van gereedschappen te beheersen zonder zijn kernvermogen te verminderen.

Hiërarchische ontkoppelde beleidsoptimalisatie

Om het optimalisatiedilemma van gekoppelde beloningen op te lossen, introduceerden de onderzoekers HDPO. HDPO scheidt nauwkeurigheid en efficiëntie in twee onafhankelijke optimalisatiekanalen. Het nauwkeurigheidskanaal richt zich op het maximaliseren van de taaknauwkeurigheid bij alle implementaties van het model. Het efficiëntiekanaal optimaliseert voor uitvoeringseconomie.

HDPO berekent de trainingssignalen voor deze twee kanalen onafhankelijk van elkaar en combineert deze pas in de laatste fase van de verliesberekening. Het efficiëntiesignaal is afhankelijk van het nauwkeurigheidskanaal. Dit betekent dat een onjuist antwoord nooit wordt beloond alleen maar omdat het snel is of minder tools gebruikt. Deze ontkoppeling vermijdt situaties waarin nauwkeurigheids- en efficiëntiegradiënten elkaar opheffen, waardoor de AI duidelijke leersignalen krijgt voor beide doelen.

De krachtigste eigenschap van dit ontkoppelde ontwerp is dat het een impliciet cognitief curriculum creëert. In het begin van de training, wanneer het model nog steeds met de taak worstelt, wordt de optimalisatie gedomineerd door de nauwkeurigheidsdoelstelling, waardoor het model gedwongen wordt prioriteit te geven aan het leren van correct redeneren en kennis. Naarmate het redeneervermogen van het model zich ontwikkelt en het consequent tot de juiste antwoorden komt, wordt het efficiëntiesignaal geleidelijk opgeschaald. Dit mechanisme zorgt ervoor dat het model eerst de taakresolutie beheerst en pas daarna zijn zelfredzaamheid verfijnt door overbodige, kostbare API-aanroepen te vermijden.

hdpo

HDPO scheidt efficiëntie en nauwkeurigheid (bron: arXiv)

Als aanvulling op HDPO ontwikkelden de onderzoekers een rigoureus, meerfasig datacuratieregime dat ernstige tekortkomingen in bestaande, met tools uitgeruste datasets aanpakt. Hun datacuratiepijplijn omvat de fases van begeleide fijnafstemming (SFT) en versterkend leren (RL).

Voor de SFT-fase hebben ze gegevens verzameld uit openbaar beschikbare multimodale trajecten met tools en deze gefilterd om voorbeelden van lage kwaliteit te verwijderen die uitvoeringsfouten of inconsistenties in de feedback bevatten. Ze filterden ook agressief elk trainingsvoorbeeld eruit dat het basismodel direct zonder gereedschap kon oplossen. Eindelijk, met behulp van Google Tweeling 3.1 Pro als geautomatiseerde rechter filterden ze het SFT-corpus om alleen voorbeelden te behouden die het gebruik van strategische tools aantoonden.

Voor de RL-fase was de curatie gericht op het garanderen van een stabiel optimalisatiesignaal. Ze filterden aanwijzingen met beschadigde beelden of semantische dubbelzinnigheid eruit. Het HDPO-algoritme is gebaseerd op het vergelijken van correcte en onjuiste antwoorden. Als een taak triviaal eenvoudig is als het model het altijd goed doet, of onbetaalbaar moeilijk als het model altijd faalt, is er geen zinvolle wiskundige variantie om van te leren. Het team hield strikt alleen aanwijzingen vast die een niet-triviale mix van successen en mislukkingen vertoonden om een ​​bruikbaar gradiëntsignaal te garanderen.

Metis-agent: HDPO in actie

Om HDPO in actie te testen, gebruikten de onderzoekers het raamwerk om Metis te ontwikkelen, een multimodaal redeneermiddel uitgerust met coderings- en zoekhulpmiddelen. Metis is gebouwd bovenop het Qwen3-VL-8B-Instruct vision-taalmodel. De onderzoekers trainden het in twee verschillende fasen. Ten eerste pasten ze SFT toe met behulp van hun samengestelde gegevens om een ​​koude start-initialisatie te bieden. Vervolgens pasten ze RL toe met behulp van het HDPO-framework, waardoor het model werd blootgesteld aan multi-turn-interacties waarbij het tools kon aanroepen zoals het uitvoeren van Python-code, het zoeken naar tekst en het zoeken naar afbeeldingen.

metis

Overzicht van het Metis-agentic-model (bron: arXiv)

De onderzoekers stelden Metis tegenover standaard open-source vision-modellen zoals LLaVA-OneVision, tekst-only redeneerders en state-of-the-art agentic-modellen, waaronder DeepEyes V2 en de Skywork-R1V4 met 30 miljard parameters. De evaluatie omvatte twee hoofdgebieden: visuele perceptie en datasets voor het begrijpen van documenten, zoals HRBench en V*Bench, en rigoureuze wiskundige en logische redeneringstaken zoals WeMath en MathVista.

Op alle taken behaalde Metis state-of-the-art of zeer competitieve prestaties, beter presterend dan bestaande agentische modellen – inclusief de veel grotere Skywork-R1V4 met 30 miljard parameters – voor zowel visuele perceptie- als redeneringstaken.

Metis-benchmarks

Metis verbetert de prestaties op belangrijke benchmarks, terwijl het gebruik van tools met een zeer grote marge wordt verminderd (bron: arXiv)

Even belangrijk is het anekdotische gedrag dat Metis in de experimenten liet zien. Wanneer bijvoorbeeld een afbeelding van een museumbord wordt gepresenteerd en wordt gevraagd wat de middelste tekst zegt, verspillen standaard agentic-modellen blindelings tijd met het schrijven van Python-scripts om de afbeelding bij te snijden, alleen maar om deze te kunnen lezen. Metis onderkent echter dat de tekst duidelijk leesbaar is in het ruwe beeld. Het slaat de tools volledig over en gebruikt een enkele gevolgtrekkingspas.

In een ander experiment kreeg het model een complexe grafiek en werd gevraagd om de op een na hoogste lijn op een specifiek gegevenspunt binnen een kleine subplot te identificeren. Metis erkende dat fijnkorrelige visuele analyse de oorspronkelijke resolutiemogelijkheden te boven ging en de overlappende lijnen niet nauwkeurig kon onderscheiden. In plaats van te raden op basis van het volledige beeld, riep het Python op om uitsluitend op dat specifieke subplotgebied bij te snijden en in te zoomen, waardoor het de lijn correct kon identificeren. Het beschouwt code als een precisie-instrument dat alleen wordt ingezet als het visuele bewijs werkelijk dubbelzinnig is, en niet als een standaard fallback.

De onderzoekers vrijgegeven Metis samen met de code voor HDPO onder de tolerante Apache 2.0-licentie.

“Onze resultaten tonen aan dat het gebruik van strategische hulpmiddelen en sterke redeneerprestaties geen compromis zijn; integendeel, het elimineren van luidruchtige, overbodige gereedschapsoproepen draagt ​​rechtstreeks bij aan superieure nauwkeurigheid”, concluderen de onderzoekers. “Meer in het algemeen suggereert ons werk een paradigmaverschuiving in het leren met behulp van tools: van het louter aanleren van modellen hoe ze tools moeten uitvoeren, naar het cultiveren van de metacognitieve wijsheid over wanneer je je ervan moet onthouden.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in