Home Nieuws Kimi K2.6 laat dagenlang agenten draaien en legt de grenzen van bedrijfsorkestratie...

Kimi K2.6 laat dagenlang agenten draaien en legt de grenzen van bedrijfsorkestratie bloot

8
0
Kimi K2.6 laat dagenlang agenten draaien en legt de grenzen van bedrijfsorkestratie bloot

De meeste orkestratieframeworks zijn gebouwd voor agenten die seconden of minuten actief zijn. Nu zijn dat agenten uur aan het rennens – en in sommige gevallen zelfs dagen – beginnen die kaders te barsten.

Verschillende modelaanbieders, zoals Anthropic met Claude Code en OpenAI met Codex, introduceerden vroegtijdige ondersteuning voor agenten met een lange horizon via taken met meerdere sessies, subagenten en uitvoering op de achtergrond. Deze systemen gaan er echter soms van uit dat agenten nog steeds binnen bepaalde tijdsworkflows werken, zelfs als ze gedurende langere perioden actief zijn.

Open-source modelaanbieder Moonshot AI wil verder gaan dan dat met zijn nieuwe model, Kimi K2.6.

Moonshot zegt dat het model is ontworpen voor continue uitvoering, met interne gebruiksscenario’s, waaronder agenten die urenlang en in één geval vijf opeenvolgende dagen aan het werk waren, waarbij de monitoring en incidentrespons autonoom werden afgehandeld.

Maar dit toenemende gebruik van dit type agent legt een kritieke leemte in de orkestratie bloot: de meeste orkestratieframeworks zijn niet ontworpen voor dit soort continue, stateful uitvoering. Open-sourcemodellen, zoals Kimi K2.6, die afhankelijk zijn van agentzwermen, beweren dat hun orkestratiebenadering dicht in de buurt komt van het beheren van stateful agents.

De moeilijkheden bij het orkestreren van langlopende agenten

Hoewel het waar is dat sommige ondernemingen liever hun eigen orkestratieframeworks in hun agent-ecosysteem brengen, erkennen modelaanbieders en agentplatforms dat het aanbieden van agentmanagement een concurrentievoordeel blijft.

Andere modelaanbieders zijn begonnen met het verkennen van langlopende agents, waarvan vele via multi-sessietaken en uitvoering op de achtergrond. Claude Code van Anthropic orkestreert bijvoorbeeld agenten met een hoofdagent die leiding geeft andere agenten op basis van een reeks door de gebruiker geïnstrueerde definities. OpenAI’s Codex loopt gelijkaardig.

Kimi K2.6 benadert orkestratie met een verbeterde versie van zijn Agent Swarms, die in staat is om tot 300 subagenten te beheren “die 4.000 gecoördineerde stappen tegelijkertijd uitvoeren”, Moonshot AI schreef in een blogpost. Vergeleken met zowel Claude Code als Codex vertrouwt K2.6 op het model, in plaats van op vooraf gedefinieerde rollen, om de orkestratie te bepalen.

Kimi K2.6 is nu beschikbaar op Hugging Face, via de API, Kimi Code en de Kimi-app.

Beoefenaars die experimenteren met middelen met een lange horizon zeggen dat de broosheid dieper zit dan de aanwijzingen kunnen verhelpen.

Zoals een beoefenaar, Maxim Saplin, het verwoordde een blogpost“Dat betekent niet dat subagenten nutteloos zijn. Het betekent dat de orkestratie nog steeds kwetsbaar is. Op dit moment voelt het meer als een product- en trainingsprobleem dan als iets dat je kunt oplossen door een voldoende strenge prompt te schrijven.”

Het probleem dat langlopende agenten stellen, is dat het moeilijk is om hun toestand te behouden, vooral omdat hun omgeving blijft veranderen terwijl ze hun werk doen. De agent riep tijdens de runtime voortdurend verschillende tools en API’s aan of maakte gebruik van verschillende databases. De meeste huidige agenten, die een of twee executies kunnen uitvoeren, roepen verschillende tools aan, maar voor maximaal een minuut.

Mark Lambert, chief product officer bij ArmorCode, dat een autonoom beveiligingsplatform voor ondernemingen bouwt, vertelde VentureBeat in een e-mail dat de governancekloof de implementatie al overtreft.

“Deze agentische systemen kunnen nu sneller code- en systeemwijzigingen genereren dan de meeste organisaties deze kunnen beoordelen, herstellen of beheren. Hiervoor is meer nodig dan alleen extra scannen. Organisaties zullen sterkere AI-governance nodig hebben die de context, prioritering en verantwoordelijkheid biedt die teams nodig hebben om Kimi en andere door AI gegenereerde risico’s te beheren voordat deze in geaccumuleerde blootstelling veranderen”, aldus Lambert.

Agenten die lang actief zijn, kunnen ook het risico lopen failliet te gaan zonder een duidelijke terugdraaiing. Het belangrijkste is dat dit soort agenten vaak een reeks goed gedefinieerde taken missen en hun plannen dynamisch aanpassen terwijl ze bezig zijn.

Kunal Anand, chief product officer bij F5, vertelde VentureBeat in een e-mail dat agenten met een lange horizon een veel grotere architecturale verschuiving vertegenwoordigen dan waar de meeste bedrijven op waren voorbereid.

“We gingen van scripts naar services, naar containers, naar functies, en nu naar agenten als persistente infrastructuur. Dat creëert categorieën waar we nog geen goede naam voor hebben: agent runtime, agent gateway, agent identiteitsprovider, agent mesh. Het API-gatewaypatroon verandert in iets dat doelen en workflows moet begrijpen, niet alleen eindpunten en werkwoorden”, aldus Anand.

13 uur en zelfs vijf dagen hardlopen

Het begrijpen hoe agenten moeten worden georkestreerd wordt belangrijk omdat modelmogelijkheden de orkestratie-innovaties beginnen te overtreffen, zelfs nu bedrijven beginnen te kijken naar agenten met een langere horizon.

Moonshot AI zegt dat het model is gebouwd voor taken die ‘uitdagingen uit de echte wereld weerspiegelen die doorgaans weken of maanden van collectieve menselijke inspanning vergen’. In een afzonderlijk technisch document dat aan VentureBeat is verstrekt, beweert Moonshot dat K2.6 in 10 uur een volledige SysY-compiler van de grond af aan heeft gebouwd – werk dat wordt gekarakteriseerd als gelijkwaardig aan een team van vier ingenieurs gedurende twee maanden – en alle 140 functionele tests heeft doorstaan ​​zonder menselijke tussenkomst.

Het team zette K2.6 in voor complexe technische taken, waaronder het reviseren van een acht jaar oude open source engine voor financiële matching. De technici van Moonshot beschreven een 13 uur durende uitvoering waarbij “12 optimalisatiestrategieën werden herhaald, waarbij meer dan 1.000 tool-oproepen werden geïnitieerd om meer dan 4.000 regels code nauwkeurig aan te passen.”

Moonshot zei dat een van zijn teams K2.6 gebruikte om een ​​agent te bouwen die vijf dagen autonoom kon werken. Die agent beheerde de monitoring, incidentrespons en systeemoperaties.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in