Home Nieuws De ‘/goals’ van Claude Code scheiden de agent die werkt van degene...

De ‘/goals’ van Claude Code scheiden de agent die werkt van degene die besluit dat het klaar is

4
0
De ‘/goals’ van Claude Code scheiden de agent die werkt van degene die besluit dat het klaar is

Een codemigratieagent is klaar met zijn run en de pijplijn ziet er groen uit. Maar verschillende stukken zijn nooit samengesteld – en het duurde dagen om ze te vangen. Dat is geen modelfout; dat is een agent die besluit dat het gedaan is voordat het daadwerkelijk gebeurd is.

Veel bedrijven zien nu dat productie-AI-agentpijplijnen niet falen vanwege de capaciteiten van de modellen, maar omdat het model achter de agent besluit te stoppen. Er zijn nu verschillende methoden beschikbaar om voortijdig verlaten van taken te voorkomen bij LangChain, Google en OpenAI, hoewel deze vaak afhankelijk zijn van afzonderlijke evaluatiesystemen. De nieuwste methode komt van Anthropic: /goals op Claude Codedat de taakuitvoering en taakevaluatie formeel scheidt.

Codeeragenten werken in een lus: ze lezen bestanden, voeren opdrachten uit, bewerken code en controleren vervolgens of de taak is voltooid.

Claude Code /goals voegt in wezen een tweede laag toe aan die lus. Nadat een gebruiker een doel heeft gedefinieerd, blijft Claude beurtelings draaien, maar na elke stap komt er een evaluatiemodel langs om te beoordelen en te beslissen of het doel is bereikt.

De twee modellen gingen uit elkaar

Orkestratieplatforms van alle drie de leveranciers identificeerden dezelfde wegversperring. Maar de manier waarop zij deze benaderen is anders. OpenAI laat de lus met rust en laat het model beslissen wanneer het klaar is, maar laat gebruikers ook hun eigen beoordelaars taggen. Voor LangGraph en de Agent Development Kit van Google is onafhankelijke evaluatie mogelijk, maar hiervoor moeten ontwikkelaars het kritieke knooppunt definiëren, de beëindigingslogica opschrijven en de waarneembaarheid configureren.

Claude Code /goals stelt de standaardwaarde van de onafhankelijke evaluator in, ongeacht of de gebruiker wil dat deze langer of korter duurt. Kortom, de ontwikkelaar stelt de voorwaarde voor voltooiing van het doel in via een prompt. /goal zijn bijvoorbeeld alle tests in test/auth geslaagd en de lintstap is schoon. Claude Code wordt vervolgens uitgevoerd en elke keer dat de agent probeert zijn werk te beëindigen, wordt het evaluatiemodel, dat standaard Haiku is, gecontroleerd aan de hand van de condition loop. Als niet aan de voorwaarde wordt voldaan, blijft de agent actief. Als aan de voorwaarde is voldaan, wordt de bereikte voorwaarde geregistreerd in het gesprekstranscript van de agent en wordt het doel gewist. Er zijn slechts twee beslissingen die de beoordelaar neemt, en daarom werkt het kleinere Haiku-model goed, of het nu wordt gedaan of niet.

Claude Code maakt dit mogelijk door het model dat een taak probeert te voltooien te scheiden van het evaluatormodel dat ervoor zorgt dat de taak daadwerkelijk wordt voltooid. Dit voorkomt dat de agent wat hij al heeft bereikt, verwart met wat er nog moet gebeuren. Met deze methode merkte Anthropic op dat er geen behoefte is aan een observatieplatform van derden – hoewel bedrijven er wel een kunnen blijven gebruiken naast Claude Code – geen behoefte aan een aangepast logboek en minder afhankelijk zijn van post-mortem-reconstructie.

Concurrenten zoals Google ADK ondersteunen vergelijkbare evaluatiepatronen. Google ADK implementeert een LoopAgent, maar ontwikkelaars moeten die logica ontwerpen.

In zijn documentatie zei Anthropic dat de meest succesvolle omstandigheden meestal het volgende hebben:

  • Eén meetbare eindtoestand: een testresultaat, een build-exitcode, een aantal bestanden, een lege wachtrij

  • Een aangegeven controle: hoe Claude dit moet bewijzen, zoals “npm test exits 0” of “git status is clean.”

  • Beperkingen die er toe doen: alles wat onderweg niet mag veranderen, zoals “er wordt geen enkel ander testbestand gewijzigd”

Betrouwbaarheid in de lus

Voor bedrijven die al grote hoeveelheden tools beheren, is de aantrekkingskracht een native evaluator die geen ander systeem toevoegt om te onderhouden.

Dit maakt deel uit van een bredere trend in de agentische ruimte, vooral als het gaat om de mogelijkheid van stateful, langlopende en zelflerende agenten wordt steeds meer werkelijkheid. Beoordelaarsmodellen, verificatiesystemen en andere onafhankelijke beoordelingssystemen beginnen op te duiken in redeneersystemen en, in sommige gevallen, in codeermiddelen zoals Devin of SWE-agent.

Sean Brownell, Solutions Director bij Sprinklr, vertelde VentureBeat in een e-mail dat er interesse is in dit soort loops, waarbij de taak en de beoordeling gescheiden zijn, maar hij vindt dat er niets unieks is aan de aanpak van Anthropic.

“Ja, de lus werkt. Het scheiden van de bouwer en de rechter is een goed ontwerp, omdat je er in principe niet op kunt vertrouwen dat een model zijn eigen huiswerk beoordeelt. Het model dat het werk doet, kan het slechtst beoordelen of het klaar is”, zei Brownell. “Dat gezegd hebbende, is Anthropic niet de eerste die op de markt komt. Het meest interessante verhaal hier is dat twee van ‘s werelds grootste AI-laboratoria slechts een paar dagen na elkaar hetzelfde commando hebben verzonden, maar dat ze allemaal totaal verschillende conclusies hebben getrokken over wie ‘klaar’ mag verklaren.

Brownell zei dat de lus het beste werkt “voor deterministisch werk met een verifieerbare eindsituatie zoals migraties, het repareren van kapotte testsuites, het wegwerken van een achterstand”, maar voor meer genuanceerde taken of taken die ontwerpoordeel nodig hebben, is een mens die die beslissing neemt veel belangrijker.

Door de splitsing tussen beoordelaar en taak naar het agent-loop-niveau te brengen, blijkt dat bedrijven als Anthropic agenten en orkestratie verder in de richting van een beter controleerbaar, waarneembaar systeem duwen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in