Onderzoekers van Nvidia en de Universiteit van Hong Kong hebben Orchestrator uitgebracht, een model met 8 miljard parameters dat verschillende tools en grote taalmodellen (LLM’s) coördineert om complexe problemen op te lossen. In hun experimenten bereikte Orchestrator een grotere nauwkeurigheid tegen lagere kosten dan veel grotere modellen in benchmarks voor het gebruik van tools, terwijl het ook in lijn kwam met de gebruikersvoorkeuren over welke tools voor een bepaalde zoekopdracht moesten worden gebruikt.
Het model werd doorgetraind ToolOrkesteen nieuw raamwerk voor versterkend leren (RL) voor het trainen van kleine modellen om als intelligente coördinatoren te fungeren. De aanpak is gebaseerd op het idee dat een kleine ‘orkestrator’ die een divers team van gespecialiseerde modellen en hulpmiddelen beheert, effectiever en efficiënter kan zijn dan een enkel, monolithisch AI-systeem.
De bevindingen suggereren dat deze samengestelde aanpak de weg zou kunnen vrijmaken voor meer praktische en schaalbare AI-redeneersystemen in de onderneming.
De grenzen van het huidige gebruik van LLM-tools
LLM’s geven toegang tot externe hulpmiddelen is een veelbelovende manier om hun capaciteiten uit te breiden buiten hun trainingsgegevens en naar agentische taken. Door een beroep te doen op bronnen zoals zoekmachines en codetolken, kunnen AI-agenten hun nauwkeurigheid verbeteren en in-app-taken uitvoeren.
Echter, in de begeleidend papierbeweren de onderzoekers dat de huidige aanpak voor het bouwen van middelengebruikende agenten niet het volledige potentieel van dit paradigma benut. De meeste systemen rusten één krachtig model uit met een reeks basishulpmiddelen, zoals zoeken op internet of een rekenmachine.
Ze beweren dat mensen, wanneer ze redeneren, ‘zich routinematig uitbreiden door een beroep te doen op hulpbronnen die groter zijn dan de menselijke intelligentie, van domeinexperts tot geavanceerde processen en softwaresystemen.’ Dienovereenkomstig moeten LLM’s in verschillende capaciteiten kunnen communiceren met een breed scala aan hulpmiddelen.
Het toolorkestratie-paradigma
Het artikel stelt een verschuiving voor van een systeem met één model naar een samengesteld systeem, beheerd door een lichtgewicht ‘orkestrator’-model. De taak van de orkestrator is om een complexe taak te analyseren en op te splitsen, waarbij hij de juiste tools in de juiste volgorde gebruikt om tot een oplossing te komen.
Deze toolset omvat niet alleen standaardhulpprogramma’s zoals webzoekopdrachten en codetolken, maar ook andere LLM’s met verschillende mogelijkheden die functioneren als ‘intelligente tools’. De orkestrator kan bijvoorbeeld een kwantitatieve vraag delegeren aan een op wiskunde gericht model, of een programmeeruitdaging aan een codegeneratiemodel. In plaats van de gehele cognitieve belasting op één groot, generalistisch model te plaatsen, delegeert de orkestrator beperkte deelproblemen aan gespecialiseerde intelligente tools.
Op basis van dit concept ontwikkelden de onderzoekers ToolOrchestra, een methode dat gebruik maakt van RL een klein taalmodel trainen om als orkestrator op te treden. Het model leert wanneer en hoe een beroep kan worden gedaan op andere modellen en hulpmiddelen, en hoe de uitkomsten ervan kunnen worden gecombineerd in multi-turn redenering. De tools zijn gedefinieerd in een eenvoudig JSON-formaat, met vermelding van hun naam, beschrijving en parameters.
Het RL-trainingsproces wordt geleid door een beloningssysteem dat een kosteneffectief en controleerbaar middel oplevert. De beloning balanceert drie doelstellingen: de juistheid van het uiteindelijke antwoord, efficiëntie in kosten en latentie en afstemming op gebruikersvoorkeuren. Het systeem wordt bijvoorbeeld bestraft voor overmatig computergebruik en beloond voor het kiezen van tools die een gebruiker als voorkeur heeft gemarkeerd, zoals het om privacyredenen prefereren van een open-sourcemodel boven een eigen API. Ter ondersteuning van deze training ontwikkelde het team ook een automatische datapijplijn die duizenden verifieerbare trainingsvoorbeelden genereerde in 10 verschillende domeinen.
Een klein model met grote resultaten
Met behulp van ToolOrchestra trainden de onderzoekers Orchestrator, een model met 8 miljard parameters gebaseerd op Qwen3-8B. Ze beoordeelden de prestaties op drie uitdagende benchmarks: Het laatste examen van de mensheid (hel),, FRAMES En Tau2-bank. Het werd vergeleken met verschillende baselines, waaronder grote, kant-en-klare LLM’s, zowel met als zonder hulpmiddelen.
De resultaten toonden aan dat zelfs krachtige modellen zonder hulpmiddelen worstelden, wat hun noodzaak tot complex redeneren bevestigde. Hoewel het toevoegen van tools de prestaties van grote modellen verbeterde, ging dit vaak gepaard met een sterke stijging van de kosten en de latentie.
De 8B Orchestrator leverde daarentegen indrukwekkende resultaten op. Op HLE, een benchmark voor vragen op PhD-niveau, presteerde Orchestrator aanzienlijk beter dan eerdere methoden tegen een fractie van de rekenkosten. Bij de functieaanroeptest van Tau2-Bench plande het effectief verschillende tools, waarbij een groot model als GPT-5 in slechts ongeveer 40% van de stappen werd aangeroepen en voor de rest goedkopere opties werden gebruikt, terwijl het nog steeds een agent versloeg die het grote model voor elke stap gebruikte.
De onderzoekers merkten op dat de RL-opgeleide Orchestrator zijn strategie aanpaste aan nieuwe uitdagingen, en blijk gaf van een “hoge mate van algemeen redeneervermogen”. Cruciaal voor bedrijfsapplicaties was dat Orchestrator ook goed kon generaliseren naar modellen en prijsstructuren die het tijdens de training niet had gezien. Deze flexibiliteit maakt het raamwerk geschikt voor bedrijven die afhankelijk zijn van een mix van publieke, private en op maat gemaakte AI-modellen en -tools. De lagere kosten, hogere snelheid en aanpasbaarheid maken het een praktische aanpak voor het bouwen van geavanceerde AI-agents die kunnen schalen.
Nu bedrijven meer geavanceerde AI-agents willen inzetten, biedt deze orkestratiebenadering een pad naar systemen die niet alleen intelligenter, maar ook zuiniger en controleerbaarder zijn. (De modelgewichten zijn momenteel beschikbaar onder een niet-commerciële licentie, maar Nvidia heeft ook de trainingscode onder de tolerante Apache 2.0-licentie.)
Zoals het artikel concludeert, zou de toekomst kunnen liggen in nog geavanceerdere versies van dit concept: “Vooruitkijkend stellen we ons meer geavanceerde recursieve orkestratorsystemen voor om de bovengrens van intelligentie te verleggen (en) ook om de efficiëntie verder te verbeteren bij het oplossen van steeds complexere agentische taken.”


