Home Nieuws Uit onderzoek blijkt dat ‘meer agenten’ geen betrouwbaar pad is naar betere...

Uit onderzoek blijkt dat ‘meer agenten’ geen betrouwbaar pad is naar betere AI-systemen voor ondernemingen

3
0
Uit onderzoek blijkt dat ‘meer agenten’ geen betrouwbaar pad is naar betere AI-systemen voor ondernemingen

Onderzoekers van Google en MIT hebben een onderzoek uitgevoerd uitgebreide analyse van agentische systemen en de dynamiek tussen het aantal agenten, de coördinatiestructuur, het modelvermogen en de taakeigenschappen. Hoewel het heersende sentiment in de sector luidt: ‘meer agenten is alles wat je nodig hebt’, suggereert het onderzoek dat het opschalen van agententeams geen gegarandeerde weg is naar betere prestaties.

Op basis van hun bevindingen hebben de onderzoekers een kwantitatief model gedefinieerd dat de prestaties van een computer kan voorspellen agentisch systeem op een onzichtbare taak. Uit hun werk blijkt dat het toevoegen van meer agenten en hulpmiddelen als een tweesnijdend zwaard werkt: hoewel het de prestaties bij specifieke problemen kan verbeteren, introduceert het vaak onnodige overhead en afnemende opbrengsten voor anderen.

Deze bevindingen bieden een cruciale routekaart voor ontwikkelaars en besluitvormers in ondernemingen die proberen te bepalen wanneer complexe multi-agent architecturen moeten worden ingezet versus eenvoudigere, kosteneffectievere single-agent oplossingen.

De staat van agentische systemen

Om de implicaties van het onderzoek te begrijpen, is het noodzakelijk onderscheid te maken tussen de twee belangrijkste architecturen die tegenwoordig worden gebruikt. Single-agentsystemen (SAS) beschikken over een eenzame redeneerlocatie. In deze opzet vinden alle perceptie, planning en actie plaats binnen een enkele sequentiële lus die wordt bestuurd door één LLM-instantie, zelfs als het systeem gebruikmaakt van hulpmiddelen, zelfreflectie of gedachteketen-redenering (CoT). Omgekeerd bestaat een multi-agentsysteem (MAS) uit meerdere door LLM ondersteunde agenten die communiceren via het gestructureerd doorgeven van berichten, gedeeld geheugen of georkestreerde protocollen.

Het bedrijfsleven heeft een toenemende belangstelling voor MASgedreven door het uitgangspunt dat gespecialiseerde samenwerking consistent beter kan presteren dan systemen met één agent. Naarmate taken steeds complexer worden en langdurige interactie met omgevingen vereisen (bijvoorbeeld codeerassistenten of bots voor financiële analyse), gaan ontwikkelaars er vaak van uit dat het verdelen van het werk onder ‘gespecialiseerde’ agenten de superieure aanpak is.

De onderzoekers beweren echter dat er ondanks deze snelle adoptie geen principieel kwantitatief raamwerk overblijft om te voorspellen wanneer het toevoegen van middelen de prestaties verbetert en wanneer het deze erodeert.

Een belangrijke bijdrage van het artikel is het onderscheid tussen “statische” en “agentische” taken. De onderzoekers pasten een ‘Agentic Benchmark Checklist’ toe om onderscheid te maken tussen taken die langdurige meerstapsinteracties, iteratieve informatieverzameling en adaptieve strategieverfijning vereisen, van taken waarvoor dat niet het geval is. Dit onderscheid is van vitaal belang omdat strategieën die werken voor het oplossen van statische problemen (zoals het stemmen op een codeerquiz) vaak mislukken wanneer ze worden toegepast op echte agentische taken waarbij ‘coördinatie-overhead’ en ‘foutvoortplanting’ zich over het probleemoplossingsproces kunnen verspreiden.

De grenzen van samenwerking testen

Om de specifieke effecten van systeemarchitectuur te isoleren, ontwierpen de onderzoekers een rigoureus experimenteel raamwerk. Ze testten 180 unieke configuraties met vijf verschillende architecturen, drie LLM-families (OpenAI, Google en Anthropic) en vier agentische benchmarks. De architecturen omvatten een controlegroep met één agent en vier varianten met meerdere agenten: onafhankelijk (parallelle agenten zonder communicatie), gecentraliseerd (agenten die rapporteren aan een orkestrator), gedecentraliseerd (peer-to-peer debat) en hybride (een mix van hiërarchie en peer-communicatie).

Verschillende single- en multi-agentsystemen (bron: arXiv)

De studie was bedoeld om “implementatieverwarringen” te elimineren door tools, promptstructuren en symbolische budgetten te standaardiseren. Dit zorgde ervoor dat als een systeem met meerdere agenten beter presteerde dan een enkele agent, de winst kon worden toegeschreven aan de coördinatiestructuur in plaats van aan de toegang tot betere tools of meer rekenkracht.

De resultaten dagen het ‘meer is beter’-verhaal uit. Uit de evaluatie blijkt dat de effectiviteit van multi-agentsystemen wordt bepaald door “kwantificeerbare afwegingen tussen architecturale eigenschappen en taakkenmerken.” De onderzoekers identificeerden drie dominante patronen die deze resultaten aansturen:

Afweging tussen gereedschapscoördinatie: Bij vaste rekenbudgetten hebben multi-agentsystemen last van contextfragmentatie. Wanneer een computerbudget wordt verdeeld over meerdere agenten, blijft elke agent onvoldoende capaciteit over voor toolorkestratie vergeleken met een enkele agent die een uniforme geheugenstroom onderhoudt.

Als gevolg hiervan daalt de efficiëntie van multi-agentsystemen in omgevingen met veel tools en meer dan tien tools sterk. De onderzoeker ontdekte dat taken die veel gereedschap vergen, een efficiëntieverlies van 2 tot 6 keer ondervinden bij het gebruik van systemen met meerdere agenten, vergeleken met systemen met één agent. Eenvoudigere architecturen worden paradoxaal genoeg effectiever omdat ze de coördinatieoverhead vermijden die gepaard gaat met de complexiteit van de omgeving.

Capaciteitsverzadiging: De gegevens wezen op een empirische drempel van ongeveer 45% nauwkeurigheid voor de prestaties van één agent. Zodra een basislijn met één agent dit niveau overschrijdt, levert het toevoegen van meer agenten doorgaans afnemende of negatieve rendementen op.

Co-auteur Xin Liu, onderzoekswetenschapper bij Google en co-auteur van het artikel, merkte echter een cruciale nuance op voor ondernemers. “Bedrijven moeten in beide (single- en multi-agentsystemen) investeren”, vertelde hij aan VentureBeat. “Betere basismodellen verhogen de basislijn, maar voor taken met natuurlijke afbreekbaarheid en parallellisatiepotentieel (zoals onze Finance Agent-benchmark met een verbetering van +80,9%) blijft coördinatie tussen meerdere agenten substantiële waarde bieden, ongeacht de modelcapaciteiten.”

Topologie-afhankelijke fout: De structuur van het agententeam bepaalt of fouten worden gecorrigeerd of vermenigvuldigd. In “onafhankelijke” systemen waarin agenten parallel werken zonder te communiceren, werden de fouten 17,2 keer groter dan bij de basislijn met één agent. Gecentraliseerde architecturen beperkten deze versterking daarentegen tot 4,4 keer.

“De belangrijkste onderscheidende factor is het hebben van een speciaal validatieknelpunt dat fouten onderschept voordat ze zich verspreiden naar de uiteindelijke output”, zegt hoofdauteur Yubin Kim, een doctoraatsstudent aan het MIT. “Voor logische tegenstrijdigheden verlaagt ‘gecentraliseerd’ het basispercentage… (met) 36,4%… Voor fouten in verband met weglatingen in de context verlaagt ‘gecentraliseerd’… (met) 66,8%.”

Bruikbare inzichten voor bedrijfsimplementatie

Voor ontwikkelaars en bedrijfsleiders bieden deze bevindingen specifieke richtlijnen voor het bouwen van efficiëntere AI-systemen.

  • De “sequentialiteit”-regel: Voordat u een team van agenten samenstelt, analyseert u de afhankelijkheidsstructuur van uw taak. De sterkste voorspeller van het falen van meerdere agenten zijn strikt opeenvolgende taken. Als Stap B volledig afhankelijk is van de perfecte uitvoering van Stap A, is een single-agentsysteem waarschijnlijk de betere keuze. In deze scenario’s lopen de fouten in elkaar over in plaats van dat ze worden opgeheven. Omgekeerd, als de taak parallel of ontleedbaar is (bijvoorbeeld het gelijktijdig analyseren van drie verschillende financiële rapporten), bieden multi-agentsystemen enorme winsten.

  • Repareer niet wat niet kapot is: Bedrijven moeten altijd eerst met één agent benchmarken. Als een systeem met één agent een succespercentage van meer dan 45% behaalt voor een specifieke taak die niet gemakkelijk kan worden ontleed, zal het toevoegen van meer agenten waarschijnlijk de prestaties verminderen en de kosten verhogen zonder waarde te leveren.

  • Tel uw API’s: Wees uiterst voorzichtig bij het toepassen van multi-agentsystemen op taken waarvoor veel verschillende tools nodig zijn. Het verdelen van een tokenbudget over meerdere agenten fragmenteert hun geheugen en context. “Voor integraties met veel tools met meer dan ongeveer tien tools hebben systemen met één agent waarschijnlijk de voorkeur”, zei Kim, en merkte op dat uit het onderzoek een “2 tot 6x efficiëntiestraf” werd waargenomen voor varianten met meerdere agenten in deze scenario’s.

  • Match topologie met doel: Als een multi-agentsysteem nodig is, moet de topologie overeenkomen met het specifieke doel. Voor taken die een hoge nauwkeurigheid en precisie vereisen, zoals financiën of coderen, is gecentraliseerde coördinatie superieur omdat de orkestrator een noodzakelijke verificatielaag biedt. Voor taken die verkenning vereisen, zoals dynamisch surfen op het web, blinkt gedecentraliseerde coördinatie uit doordat agenten verschillende paden tegelijkertijd kunnen verkennen.

  • De “Regel van 4”: Hoewel het verleidelijk kan zijn om enorme zwermen te bouwen, blijkt uit het onderzoek dat de effectieve teamgrootte momenteel beperkt is tot ongeveer drie of vier agenten. “De limiet van drie tot vier agenten die we identificeren, komt voort uit meetbare beperkingen van de middelen”, zei Kim. Daarnaast groeit de communicatieoverhead superlineair (in het bijzonder met een exponent van 1,724), wat betekent dat de kosten van coördinatie snel groter worden dan de waarde van de toegevoegde redenering.

Vooruitkijkend: de bandbreedtelimiet doorbreken

Hoewel de huidige architecturen bij kleine teamgroottes een plafond bereiken, is dit waarschijnlijk eerder een beperking van de huidige protocollen dan een fundamentele beperking van AI. De effectieve limiet van systemen met meerdere agenten komt voort uit het feit dat agenten momenteel op een dichte, resource-intensieve manier communiceren.

“Wij geloven dat dit een huidige beperking is, en geen permanent plafond”, zei Kim, wijzend op een paar belangrijke innovaties die het potentieel van grootschalige samenwerking tussen agenten kunnen ontsluiten:

Schaarse communicatieprotocollen: “Uit onze gegevens blijkt dat de berichtdichtheid verzadigt op ongeveer 0,39 berichten per beurt, waarna extra berichten redundantie toevoegen in plaats van nieuwe informatie. Slimmere routering zou de overhead kunnen verminderen”, zei hij.

Hiërarchische ontleding: In plaats van platte zwermen van 100 agenten zouden geneste coördinatiestructuren de communicatiegrafiek kunnen verdelen.

Asynchrone coördinatie: “Onze experimenten maakten gebruik van synchrone protocollen, en asynchrone ontwerpen zouden de blokkeringsoverhead kunnen verminderen”, zei hij.

Mogelijkheidsbewuste routering: “Onze heterogeniteitsexperimenten suggereren dat het strategisch combineren van modelmogelijkheden de efficiëntie kan verbeteren,” zei Kim

Dit is iets om naar uit te kijken in 2026. Tot die tijd zijn de gegevens voor de enterprise architect duidelijk: kleinere, slimmere en meer gestructureerde teams winnen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in