Home Nieuws Betaalt u een AI-zwermbelasting? Waarom individuele agenten vaak complexe systemen verslaan

Betaalt u een AI-zwermbelasting? Waarom individuele agenten vaak complexe systemen verslaan

7
0
Betaalt u een AI-zwermbelasting? Waarom individuele agenten vaak complexe systemen verslaan

Enterprise-teams die AI-systemen met meerdere agenten bouwen, betalen mogelijk een rekenpremie voor winsten die onder gelijke budgetvoorwaarden niet standhouden. Uit nieuw onderzoek van Stanford University blijkt dat systemen met één agent overeenkomen met of beter presteren dan multi-agent-architecturen bij complexe redeneertaken wanneer beide hetzelfde denktokenbudget krijgen.

Multi-agentsystemen brengen echter de extra bagage van computationele overhead met zich mee. Omdat ze doorgaans langere redeneersporen en meerdere interacties gebruiken, is het vaak onduidelijk of de gerapporteerde voordelen voortkomen uit architectonische voordelen of eenvoudigweg uit het verbruiken van meer hulpbronnen.

Om de ware drijfveer achter prestaties te isoleren, hebben onderzoekers van Stanford University ontdekt vergeleek single-agent-systemen met multi-agent-architecturen op complexe multi-hop redeneertaken onder gelijke “denktoken” -budgetten.

Uit hun experimenten blijkt dat single-agent-systemen in de meeste gevallen overeenkomen met of beter presteren dan multi-agent-systemen wanneer de rekenkracht gelijk is. Multi-agentsystemen krijgen een concurrentievoordeel wanneer de context van een enkele agent te lang wordt of beschadigd raakt.

In de praktijk betekent dit dat een single-agent-model met een adequaat denkbudget een efficiëntere, betrouwbaardere en kosteneffectievere multi-hop-redenering kan opleveren. Technische teams moeten systemen met meerdere agenten reserveren voor scenario’s waarin individuele agenten een prestatieplafond bereiken.

Inzicht in de kloof tussen één en meerdere agenten

Multi-agent-frameworks, zoals planner-agents, rollenspelsystemen of debatzwermen, breken een probleem af doordat meerdere modellen op gedeeltelijke contexten werken. Deze componenten communiceren met elkaar door hun antwoorden door te geven.

Hoewel multi-agentoplossingen sterke empirische prestaties laten zien, is het vergelijken ervan met single-agent basislijnen vaak een onnauwkeurige meting. Vergelijkingen worden sterk verstoord door verschillen in de berekening van de testtijd. Opstellingen met meerdere agenten vereisen interacties met meerdere agenten en genereren langere redeneersporen, wat betekent dat ze aanzienlijk meer tokens verbruiken.

Single-agentsystemen (SAS) versus multi-agentsystemen (MAS)

Als een multi-agentsysteem een ​​hogere nauwkeurigheid rapporteert, is het daarom moeilijk te bepalen of de winst voortkomt uit een beter architectuurontwerp of uit het uitgeven van extra rekenkracht.

Recente onderzoeken laten zien dat wanneer het rekenbudget vaststaat, uitgebreide multi-agentstrategieën vaak ondermaats presteren in vergelijking met sterke single-agent-basislijnen. Het zijn echter meestal zeer brede vergelijkingen die geen rekening houden met nuances zoals verschillende multi-agent-architecturen of het verschil tussen prompt- en redeneringstokens.

“Een centraal punt van ons artikel is dat veel vergelijkingen tussen single-agentsystemen (SAS) en multi-agentsystemen (MAS) geen appels met appels zijn”, vertelden de auteurs van het artikel Dat Tran en Douwe Kiela aan VentureBeat. “MAS krijgt vaak effectievere testtijdberekeningen door extra oproepen, langere traces of meer coördinatiestappen.”

Een nieuwe kijk op de uitdaging met meerdere agenten onder strikte budgetten

Om een ​​eerlijke vergelijking te maken, hebben de Stanford-onderzoekers een strikt ‘thinking token’-budget vastgesteld. Deze statistiek bepaalt het totale aantal tokens dat uitsluitend wordt gebruikt voor tussentijdse redeneringen, met uitzondering van de initiële prompt en de uiteindelijke uitvoer.

De studie evalueerde single- en multi-agentsystemen op multi-hop redeneertaken, dat wil zeggen vragen waarbij meerdere stukjes ongelijksoortige informatie met elkaar moeten worden verbonden om tot een antwoord te komen.

Tijdens hun experimenten merkten de onderzoekers dat opstellingen met één agent soms hun interne redenering voortijdig stopzetten, waardoor het beschikbare computerbudget ongebruikt blijft. Om dit tegen te gaan, introduceerden ze een techniek genaamd SAS-L (single-agent-systeem met langer denken).

In plaats van over te stappen op multi-agent-orkestratie wanneer een model het voortijdig opgeeft, suggereren de onderzoekers een eenvoudige, snelle en budgettaire verandering.

“Het technische idee is eenvoudig”, zeiden Tran en Kiela. “Herstructureer eerst de single-agentprompt, zodat het model expliciet wordt aangemoedigd om het beschikbare redeneringsbudget te besteden aan analyse vóór het antwoord.”

Door het model te instrueren om expliciet dubbelzinnigheden te identificeren, kandidaat-interpretaties op te sommen en alternatieven te testen voordat ze tot een definitief antwoord komen, kunnen ontwikkelaars de voordelen van samenwerking binnen een single-agent-opstelling terugwinnen.

De resultaten van hun experimenten bevestigen dat één enkele agent de sterkste standaardarchitectuur is voor multi-hop redeneringstaken. Het produceert antwoorden met de hoogste nauwkeurigheid en verbruikt minder redeneerfiches. In combinatie met specifieke modellen zoals Google’s Gemini 2.5 levert de langer nadenkende variant nog betere totale prestaties.

De onderzoekers vertrouwen op een concept genaamd ‘Data Processing Inequality’ om uit te leggen waarom een ​​enkele agent beter presteert dan een zwerm. Multi-agentframeworks introduceren inherente communicatieknelpunten. Telkens wanneer informatie wordt samengevat en overgedragen tussen verschillende agenten, bestaat het risico op gegevensverlies.

Daarentegen vermijdt een single-agent-redenering binnen één continue context deze fragmentatie. Het behoudt toegang tot de rijkste beschikbare weergave van de taak en is dus informatie-efficiënter met een vast budget.

De auteurs merken ook op dat bedrijven vaak de secundaire kosten van multi-agentsystemen over het hoofd zien.

“Wat bedrijven vaak onderschatten is dat orkestratie niet gratis is”, zeggen ze. “Elke extra agent introduceert communicatie-overhead, meer tussenliggende tekst, meer mogelijkheden voor verliesgevende samenvattingen en meer plaatsen waar fouten kunnen ontstaan.”

Aan de andere kant ontdekten ze dat orkestratie door meerdere agenten superieur is als de omgeving van één agent rommelig wordt. Als een bedrijfsapplicatie zeer gedegradeerde contexten moet verwerken, zoals luidruchtige gegevens, lange invoer vol afleiders of beschadigde informatie, heeft een enkele agent het moeilijk. In deze scenario’s kan het gestructureerd filteren, ontleden en verifiëren van een systeem met meerdere agenten relevante informatie betrouwbaarder herstellen.

Het onderzoek waarschuwt ook voor verborgen evaluatievalkuilen die de prestaties van meerdere agenten ten onrechte verhogen. Als je puur vertrouwt op door de API gerapporteerde tokentellingen, wordt de hoeveelheid rekenkracht die een architectuur daadwerkelijk uitgeeft sterk verstoord. De onderzoekers ontdekten deze boekhoudkundige artefacten bij het testen van modellen als Gemini 2.5, wat bewijst dat dit tegenwoordig een actief probleem is voor bedrijfsapplicaties.

“Voor API-modellen is de situatie lastiger omdat budgetboekhouding ondoorzichtig kan zijn”, aldus de auteurs. Om architecturen betrouwbaar te kunnen beoordelen, adviseren ze ontwikkelaars om “alles te loggen, de zichtbare redeneringssporen te meten waar beschikbaar, door de provider gerapporteerde redeneringstokentellingen te gebruiken wanneer ze worden blootgesteld, en voorzichtig met die cijfers om te gaan.”

Wat het betekent voor ontwikkelaars

Als een systeem met één agent de prestaties van meerdere agenten met gelijke budgetten evenaart, wint het wat betreft de totale eigendomskosten door minder modeloproepen, een lagere latentie en eenvoudiger debuggen aan te bieden. Tran en Kiela waarschuwen dat zonder deze basislijn “sommige ondernemingen mogelijk een grote ‘zwermbelasting’ betalen voor architecturen waarvan het duidelijke voordeel in werkelijkheid voortkomt uit het besteden van meer rekenkracht in plaats van effectiever te redeneren.”

Een andere manier om naar de beslissingsgrens te kijken is niet hoe complex de totale taak is, maar eerder waar het exacte knelpunt ligt.

“Als het vooral om diepgang gaat, is SAS vaak genoeg. Als het om contextfragmentatie of degradatie gaat, wordt MAS beter verdedigbaar”, aldus Tran.

Technische teams moeten bij één agent blijven als een taak binnen één samenhangend contextvenster kan worden afgehandeld. Multi-agentsystemen worden noodzakelijk wanneer een applicatie zeer gedegradeerde contexten verwerkt.

In de toekomst zullen multi-agent-frameworks niet verdwijnen, maar hun rol zal evolueren naarmate grensmodellen hun interne redeneervermogen verbeteren.

“De belangrijkste conclusie uit ons artikel is dat de structuur met meerdere agenten moet worden behandeld als een gerichte technische keuze voor specifieke knelpunten, en niet als een standaardaanname dat meer agenten automatisch betere intelligentie betekenen,” zei Tran.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in