Home Nieuws Hoe Sakana een 7B-model trainde om GPT-5, Claude Sonnet 4 en Gemini...

Hoe Sakana een 7B-model trainde om GPT-5, Claude Sonnet 4 en Gemini 2.5 Pro te orkestreren

Door

7 mei 2026

Elke LangChain-pijplijn die uw team hardcodeert, begint te breken op het moment dat de distributie van zoekopdrachten verschuift – en dat verandert altijd. Dat knelpunt is wat Sakana AI wilde elimineren.

Onderzoekers van Sakana AI hebben de “RL-dirigent”, een klein taalmodel dat is getraind via versterkend leren om automatisch een gevarieerde pool van LLM’s van werknemers te orkestreren. De dirigent analyseert op dynamische wijze de input, verdeelt de arbeid onder de werknemers en coördineert tussen agenten.

Deze geautomatiseerde coördinatie behaalt state-of-the-art resultaten op moeilijke redeneer- en codeerbenchmarks, en presteert beter dan individuele grensmodellen zoals GPT-5 en Claude Sonnet 4, evenals dure, door mensen ontworpen multi-agent-pijplijnen. Het bereikt deze prestaties tegen een fractie van de kosten en met minder API-aanroepen dan concurrenten. RL Conductor is de ruggengraat van Fugu, de commerciële multi-agent orkestratieservice van Sakana AI.

De beperkingen van handmatige agentische raamwerken

Grote taalmodellen hebben sterke latente capaciteiten. Maar het optimaal benutten van deze mogelijkheden is een grote uitdaging. Het behalen van dit prestatieniveau is sterk afhankelijk van handmatig ontworpen agentische workflows, die dienen als cruciale componenten in commerciële AI-producten.

Deze raamwerken schieten echter tekort omdat ze inherent rigide en beperkt zijn. In commentaar op VentureBeat legde Yujin Tang, co-auteur van het artikel, het exacte breekpunt van de huidige systemen uit: “Hoewel het gebruik van raamwerken met hardgecodeerde pipelines zoals LangChain en Mixture-of-Agents goed kan werken voor specifieke gebruiksscenario’s… In de productie ontstaat er een inherent knelpunt bij het targeten van domeinen met grote gebruikersbases met zeer heterogene eisen.”

Tang merkte op dat het bereiken van “real-world generalisatie in dergelijke heterogene toepassingen inherent noodzakelijk maakt dat verder wordt gegaan dan door mensen gecodeerde ontwerpen.”

Een ander knelpunt bij het bouwen van robuuste agentische systemen is dat geen enkel model optimaal is voor alle taken. Verschillende modellen zijn verfijnd om zich te specialiseren in verschillende domeinen. Het ene model kan uitblinken in wetenschappelijk redeneren, terwijl het andere superieur is in het genereren van code, wiskundige logica of planning op hoog niveau.

Omdat modellen deze uiteenlopende kenmerken en complementaire vaardigheden hebben, is het handmatig voorspellen en hardcoderen van de ideale combinatie van modellen voor elke vraag praktisch onmogelijk. Een optimaal agentisch raamwerk moet in staat zijn een probleem te analyseren en subtaken te delegeren aan de meest geschikte expert in de pool.

Het dirigeren van een orkest van agenten

De RL Conductor is ontworpen om de beperkingen van rigide, door mensen ontworpen raamwerken te overwinnen. Zoals de naam al aangeeft, stuurt het een orkest van agenten aan door uitdagende problemen te verdelen, gerichte subtaken te delegeren en communicatietopologieën te ontwerpen voor een reeks werker-LLM’s.

In plaats van te vertrouwen op vaste code of statische routing, orkestreert de Conductor deze modellen door een aangepaste workflow te genereren. Voor elke stap in de workflow genereert het model een instructie in natuurlijke taal voor een specifiek aspect van de taak, wijst een agent toe om deze uit te voeren en definieert een “toegangslijst” die dicteert welke eerdere subtaken en antwoorden van andere agenten in de context van die agent worden opgenomen.

Door alles in natuurlijke taal te definiëren, bouwt de Conductor flexibele workflows op maat van elke input. Het kan eenvoudige opeenvolgende ketens, parallelle boomstructuren of zelfs recursieve lussen construeren, afhankelijk van de eisen van het probleem.

RL Dirigent (bron: Sakana AI)

Belangrijk is dat het model deze strategieën niet door menselijk ontwerp leert, maar door versterkend leren (RL) en beloningsmaximalisatie. Tijdens de training krijgt het model een taak, een pool van werknemers en een beloningssignaal op basis van de vraag of het antwoord en het uitvoerformaat correct zijn.

Via een eenvoudig RL-algoritme met vallen en opstaan ontdekt het model op organische wijze welke combinaties van instructies en communicatiestructuren de hoogste beloning opleveren. Het resultaat is dat het automatisch geavanceerde orkestratiestrategieën gebruikt, zoals gerichte prompt-engineering, iteratieve verfijning en meta-prompt-optimalisatie.

Het model leert zijn strategieën dynamisch aan te passen en de onderscheidende sterke punten van zijn werknemers te benutten zonder dat een menselijke ontwikkelaar het proces hard hoeft te coderen.

Dirigent in actie

Om RL Conductor in actie te testen, hebben de onderzoekers de 7 miljard parameter Qwen2.5-7B verfijnd met behulp van het raamwerk. Tijdens de training kreeg de Conductor de taak om agentische workflows van maximaal vijf stappen te ontwerpen. Het kreeg toegang tot een werknemerspool met zeven verschillende modellen: drie closed-source giganten (Gemini 2.5 Pro, Claude-Sonnet-4 en GPT-5) en vier open-source modellen (waaronder DeepSeek-R1-Distill-Qwen-32B, Gemma3-27B en Qwen3-32B).

Het team evalueerde de Conductor aan de hand van een aantal zeer uitdagende benchmarks, waarbij deze werd vergeleken met individuele grensmodellen die alleen werkten, zelfreflectieagenten die herhaaldelijk werden aangezet om hun eigen antwoorden te verbeteren, en ultramoderne multi-agent routeringsframeworks zoals MASRouter, Mixture-of-Agents (MoA), RouterDC en Smoothie. De kleine 7B Conductor zette over de hele linie nieuwe maatstaven. Het behaalde een gemiddelde score van 77,27% voor alle taken, wat neerkomt op 93,3% op de AIME25-wiskundebenchmark, 87,5% op GPQA-Diamond en 83,93% op LiveCodeBench, aldus de onderzoekers.

Opmerkelijk genoeg behaalde het deze cijfers, terwijl het toch zeer efficiënt bleef. Terwijl basismodellen zoals MoA 11.203 tokens per vraag verbrandden, gebruikte de Conductor gemiddeld slechts 1.820 tokens, wat neerkomt op gemiddeld slechts drie stappen per workflow.

rl-conductor-prestaties — RL Conductor presteert beter dan andere baselines op belangrijke benchmarks in de sector (bron: arXiv)

Een nadere blik op de experimentele details laat precies zien waarom het raamwerk zo effectief is. De conducteur leerde automatisch de moeilijkheidsgraad van een taak te meten. Voor eenvoudige feitelijke terugroepvragen werd het probleem vaak in één stap opgelost of werd een eenvoudige opstelling met twee agenten gebruikt. Voor complexe codeerproblemen bouwde het echter uitgebreide workflows waarbij maximaal vier agenten betrokken waren, met speciale plannings-, implementatie- en verificatiefasen.

De Conductor leerde ook dat grensmodellen verschillende sterke punten hebben. Om recordscores te behalen op codeerbenchmarks, heeft de Conductor regelmatig Gemini 2.5 Pro en Claude Sonnet 4 aangewezen als planners op hoog niveau, en pas aan het einde GPT-5 ingeschakeld om de uiteindelijke geoptimaliseerde code te schrijven. In een bijzonder slim vertoon van aanpassingsvermogen deed de Conductor soms volledig afstand van zijn eigen rol, waarbij hij het hele planningsproces overdroeg aan Gemini 2.5 Pro en deze de subtaken voor de rest van de pool liet dicteren.

Naast wiskunde- en codeerbenchmarks, zet Sakana AI de onderliggende architectuur al aan het werk in front-office-utility. “We hebben onze Fugu-modellen gebaseerd op de Conductor-technologie intern gebruikt voor verschillende praktische bedrijfstoepassingen: softwareontwikkeling, diepgaand onderzoek, strategieontwikkeling en zelfs visuele taken zoals het genereren van dia’s”, zei Tang.

Orkestratie in de onderneming brengen: Sakana Fugu

Hoewel het in het onderzoekspaper beschreven 7B-model een verkennende blauwdruk was en niet publiekelijk beschikbaar is, heeft Sakana AI het Conductor-framework omgezet in zijn belangrijkste commerciële AI-product, Sakana Fugu. Fugu bevindt zich nu in de bètafase en fungeert als een multi-agent orkestratiesysteem dat toegankelijk is via een standaard OpenAI-compatibele API.

Tang merkte op dat Fugu zich richt op “de grote markt van industrieën waar de adoptie van AI nog geen grote productiviteitswinsten moet opleveren vanwege de generalisatiebeperkingen van de huidige hardgecodeerde pijplijnen, zoals financiën en defensie.”

Voor bedrijfsontwikkelaars maakt dit een naadloze integratie in bestaande applicaties mogelijk, zonder de hoofdpijn van het beheren van meerdere API-sleutels of het handmatig routeren van taken tussen verschillende leveranciers. Achter de API-interface automatiseert Fugu complexe samenwerkingstopologieën en roltoewijzingen in een reeks modellen. Om de uiteenlopende zakelijke behoeften te ondersteunen, heeft Sakana twee varianten uitgebracht: Fugu Mini, gebouwd voor operaties met lage latentie, en Fugu Ultra, ontworpen voor maximale prestaties bij veeleisende workloads.

Bij het aanpakken van governanceproblemen rond autonome agenten die onzichtbare workflows opzetten, wees Tang erop dat de interpreteerbaarheidsrisico’s functioneel vergelijkbaar zijn met de verborgen redeneringssporen van de huidige gesloten API’s van het hoogste niveau, en dat het systeem wordt beheerd met gevestigde vangrails om hallucinaties te minimaliseren.

Voor ondernemingsarchitecten die een afweging maken tussen de inzet van RL-orkestratie en traditionele routering, komt de beslissing vaak neer op technische middelen. “Wij geloven dat de absolute beste plek ontstaat wanneer gebruikers en hun teams het gevoel hebben dat ze onevenredig veel tijd besteden aan het begeleiden van hun onderliggende agenten”, aldus Tang. Hij waarschuwde echter dat het raamwerk niet voor alles nodig is, en merkte op dat “het moeilijk is om het economische voorstel te verslaan van een lokaal model dat rechtstreeks op de computer van de gebruiker draait voor eenvoudige vragen.”

Naarmate de diversiteit aan gespecialiseerde open- en closed-source AI-modellen blijft groeien, zullen statische, hardgecodeerde pijplijnen onvermijdelijk verouderd raken. Vooruitkijkend zal deze dynamische orkestratie waarschijnlijk verder reiken dan tekst- en codeomgevingen. “Er is inderdaad een groot potentieel om deze leemte op te vullen, waarbij cross-modale Conductor-frameworks de basis gaan vormen voor meer autonome, zelfcoördinerende fysieke AI-systemen”, aldus Tang.

Nieuwsbron

Hoe Sakana een 7B-model trainde om GPT-5, Claude Sonnet 4 en Gemini 2.5 Pro te orkestreren

De beperkingen van handmatige agentische raamwerken

Het dirigeren van een orkest van agenten

Dirigent in actie

Orkestratie in de onderneming brengen: Sakana Fugu

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Waarom anime-fans boos zijn op Netflix vanwege de release van Steel Ball Run: JoJo’s...

‘Een huwelijk van kleur en vorm’ – IKEA’s donutvormige Varmblixt slimme lamp ligt al...

Washington en 35 andere staten bereiken een schikking met Hyundai en Kia over het...

Raketwerpers en de Black Banker slaan toe… verbazingwekkende ondergang van de Londense maffiabaas achter...