Naarmate modellen slimmer en capabeler worden, moeten de ‘harnassen’ om hen heen ook evolueren. Deze ‘harness engineering’ is een uitbreiding van context engineering, zegt LangChain medeoprichter en CEO Harrison Chase in a nieuwe VentureBeat Beyond the Pilot-podcast aflevering. Terwijl traditionele AI-harnassen modellen ervan weerhouden om in loops te draaien en tools aan te roepen, zorgen harnassen die speciaal voor AI-agenten zijn gebouwd ervoor dat ze onafhankelijker kunnen communiceren en langlopende taken effectief kunnen uitvoeren.
Chase ook woog op de overname van OpenClaw door OpenAImet het argument dat het virale succes neerkwam op de bereidheid om het te laten scheuren op een manier die geen enkel groot laboratorium zou doen – en zich af te vragen of de overname OpenAI daadwerkelijk dichter bij een veilige bedrijfsversie van het product brengt. “De trend bij harnassen is om het grote taalmodel (LLM) zelf meer controle te geven over context-engineering, door het te laten beslissen wat het ziet en wat het niet ziet”, zegt Chase. “Nu is dit idee van een langlopende, meer autonome assistent levensvatbaar.”
Het bijhouden van de voortgang en het behouden van de samenhang
Hoewel het concept om LLM’s in een lus te laten draaien en tools aan te roepen relatief eenvoudig lijkt, is het moeilijk om dit op betrouwbare wijze uit te voeren, merkte Chase op. Een tijdlang bevonden modellen zich ‘onder de drempel van bruikbaarheid’ en konden ze eenvoudigweg niet in een lus draaien, dus gebruikten ontwikkelaars grafieken en schreven ze ketens om dat te omzeilen. Chase wees op AutoGPT – ooit het snelst groeiende GitHub-project ooit – als een waarschuwend voorbeeld: dezelfde architectuur als de topagenten van vandaag, maar de modellen waren nog niet goed genoeg om betrouwbaar in een lus te draaien, dus het vervaagde snel. Maar naarmate LLM’s blijven verbeteren, kunnen teams omgevingen bouwen waarin modellen in loops kunnen draaien en over langere horizonten kunnen plannen, en kunnen ze deze harnassen voortdurend verbeteren. Voorheen “kon je het harnas niet echt verbeteren, omdat je het model niet echt in een harnas kon laten lopen”, zei Chase. Het antwoord van LangChain hierop is Deep Agents, een aanpasbaar programma harnas voor algemeen gebruik. Het is gebouwd op LangChain en LangGraph en beschikt over planningsmogelijkheden, een virtueel bestandssysteem, context- en tokenbeheer, code-uitvoering, en vaardigheden en geheugenfuncties. Verder kan het taken delegeren aan subagenten; deze zijn gespecialiseerd in verschillende tools en configuraties en kunnen parallel werken. De context wordt ook geïsoleerd, wat betekent dat het werk van subagenten de context van de hoofdagent niet onoverzichtelijk maakt, en dat de context van grote subtaken wordt gecomprimeerd tot één resultaat voor tokenefficiëntie. Al deze agenten hebben toegang tot bestandssystemen, legde Chase uit, en kunnen in essentie takenlijsten maken die ze kunnen uitvoeren en in de loop van de tijd kunnen volgen. “Als het doorgaat naar de volgende stap, en het gaat door naar stap twee, stap drie of stap vier van een proces van 200 stappen, heeft het een manier om de voortgang te volgen en die samenhang te behouden,” zei Chase. “Het komt er in wezen op neer dat de LLM zijn gedachten opschrijft terwijl hij bezig is.” Hij benadrukte dat harnassen zo moeten worden ontworpen dat modellen de samenhang over langere taken kunnen behouden, en ‘ontvankelijk’ zijn voor modellen die beslissen wanneer de context moet worden gecomprimeerd op punten die volgens hen ‘voordelig’ zijn. Bovendien vergroot het geven van toegang aan agenten tot codetolken en BASH-tools de flexibiliteit. En doordat agenten vaardigheden krijgen in plaats van alleen maar vooraf geladen tools, kunnen ze informatie laden wanneer ze die nodig hebben. “Dus in plaats van alles hard te coderen in één grote systeemprompt,” legde Chase uit, “zou je een kleinere systeemprompt kunnen hebben: ‘Dit is de kernbasis, maar als ik X moet doen, laat me dan de vaardigheid voor X lezen. Als ik Y moet doen, laat me dan de vaardigheid voor Y lezen.’” In wezen is context-engineering een “heel mooie” manier om te zeggen: wat ziet de LLM? Omdat dat anders is dan wat ontwikkelaars zien, merkte hij op. Wanneer menselijke ontwikkelaars sporen van agenten kunnen analyseren, kunnen ze zichzelf in de ‘mindset’ van de AI verplaatsen en vragen beantwoorden als: Wat is de systeemprompt? Hoe wordt het gemaakt? Is het statisch of is het bevolkt? Welke hulpmiddelen heeft de agent? Wanneer het een gereedschapsoproep doet en een antwoord terugkrijgt, hoe wordt dat dan gepresenteerd? “Als agenten een fout maken, maken ze een fout omdat ze niet de juiste context hebben; als ze slagen, slagen ze omdat ze de juiste context hebben”, aldus Chase. “Ik beschouw context-engineering als het op het juiste moment naar de LLM brengen van de juiste informatie in het juiste formaat.” Luister naar de podcast en hoor meer over:
-
Hoe LangChain zijn stapel opbouwde: LangGraph als de kernpijler, LangChain in het midden, Deep Agents bovenaan.
-
Waarom code-sandboxen het volgende grote ding zullen zijn
-
Hoe een ander type UX zal evolueren naarmate agenten met langere tussenpozen (of continu) werken.
-
Waarom sporen en waarneembaarheid essentieel zijn voor het bouwen van een middel dat echt werkt.
Je kunt ook luisteren en je abonneren Voorbij de piloot op Spotify, Appel of waar u uw podcasts ook vandaan haalt.



