Home Nieuws LangSmith Engine sluit de foutopsporingslus voor agenten automatisch, maar ondernemingen met meerdere...

LangSmith Engine sluit de foutopsporingslus voor agenten automatisch, maar ondernemingen met meerdere modellen hebben nog steeds een neutrale laag nodig

5
0
LangSmith Engine sluit de foutopsporingslus voor agenten automatisch, maar ondernemingen met meerdere modellen hebben nog steeds een neutrale laag nodig

Bedrijven die agenten bouwen en inzetten hebben een probleem: het duurt te lang voordat hun ingenieurs erachter komen dat een agent een fout heeft gemaakt, en de cirkel blijft zich voortzetten, vooral zonder dat er bij elke stap een mens aanwezig is.

LangSmith, het monitoring- en evaluatieplatform van LangChain, lanceerde een nieuwe mogelijkheid in de publieke bèta die dit probleem beter beheersbaar zou kunnen maken. LangSmith-motor automatiseert de hele keten door productiefouten te detecteren, de hoofdoorzaken te diagnosticeren aan de hand van de live codebase, een oplossing op te stellen en regressie te voorkomen. Het doet dit in één geautomatiseerde pas.

LangSmith Engine geeft AI-ingenieurs een sneller pad naar triage, maar het komt terecht in een druk veld: Anthropic, OpenAI en Google trekken allemaal aan observatie en evaluatie op hun eigen platforms.

LangSmith Engine kijkt naar fouten

LangChain zei in een blogpost dat de typische ontwikkelingscyclus van agenten begint met het traceren van de agent om te begrijpen wat hij doet, gevolgd door het identificeren van hiaten, het aanbrengen van wijzigingen in de prompts en tools, en het creëren van ground-truth datasets. Ontwikkelaars voeren vervolgens experimenten uit en controleren op regressies voordat ze de agent verzenden.

Het probleem is dat klanten vaak tegen problemen aanlopen als de trace review geen foutieve patronen aan het licht brengt, herhaling van fouten moeilijk te zien wordt en er geen gerichte beoordelaar is om hetzelfde probleem op te sporen als het zich herhaalt in de productie.

LangSmith Engine werkt door het monitoren van productiesporen voor verschillende signaaltypen, “expliciete fouten, fouten in de online evaluator, trace-afwijkingen, negatieve gebruikersfeedback en ongewoon gedrag, zoals het stellen van vragen door de gebruiker waar de agent niet voor is gebouwd”, aldus de blogpost.

Engine leest vervolgens de live codebase, vindt de boosdoener en stelt een pull-verzoek op voordat hij een aangepaste evaluator voor dat specifieke foutpatroon voorstelt. De mens komt binnen bij de goedkeuringsstap.

Het is gebouwd bovenop de bestaande tracerings- en evaluatie-infrastructuur van LangSmith en werkt ook met de evaluatorresultaten van een onderneming.

In tegenstelling tot observatietools zoals Weights & Biases, Arize Phoenix en Honeyhive, neemt LangSmith Engine de hele keten automatisch over (het detecteren van de fout, het diagnosticeren van de hoofdoorzaak, het opstellen van een oplossing) en betrekt de mens pas bij de goedkeuringsstap.

Modelaanbieders brengen beoordelaars op het platform

Hoewel LangSmith deze evaluatielus als een noodzaak voor veel bedrijven heeft geïdentificeerd, komt Engine op een moment dat de grotere providers observatietools beginnen aan te bieden binnen hun platform. Dit betekent dat bedrijven ervoor kunnen kiezen om een ​​end-to-end platform te gebruiken in plaats van LangSmith Engine toe te voegen aan hun bestaande workflows.

Claude beheerde agenten van Anthropic brengt de inzet, evaluatie en orkestratie van agenten samen in één suite. De grens van OpenAI biedt een vergelijkbaar end-to-end platform voor het bouwen, besturen en evalueren van bedrijfsagenten – hoewel beide met vragen zijn geconfronteerd van bedrijven die huiverig zijn zich aan één enkele leverancier te binden.

Praktijkdeskundigen wijzen er echter op dat niet iedereen evaluaties en waarneembaarheid volledig in één platform wil samenbrengen.

Leigh Coney, oprichter en hoofdconsulent bij Workwise Solutions, vertelde VentureBeat dat observatie door derden voor veel bedrijven de standaard is.

“Eén fonds waarmee ik werk, gebruikt Claude voor analyse en GPT voor een aparte workflow. Als waarneembaarheid in de tooling van elke provider zit, heb je nu twee systemen die niet met elkaar kunnen praten. Je compliance-team kan geen uniform audittraject produceren”, zei hij. “Dus de waarneembaarheid van derden blijft bestaan, omdat multi-modellen al de standaard zijn in ondernemingen, en iemand tussen de providers moet zitten.”

Jessica Arredondo Murphy, CEO en mede-oprichter van True Fit, zegt dat onafhankelijke platforms zoals LangSmith aan bedrijven moeten bewijzen dat ze “de langetermijnvraag kunnen beantwoorden of ze de cross-model operationele laag voor kwaliteit en betrouwbaarheid worden.”

“Bedrijven consolideren zich niet zo snel op de first-party modelprovidertools als de modelaanbieders zouden willen. Wat ik zie is een pragmatische splitsing: teams zullen first-party tooling gebruiken voor snelle onboarding en vroege debugging, maar zodra ze zich bekommeren om productiebetrouwbaarheid, governance en flexibiliteit op de lange termijn, hebben ze de neiging een meer neutrale laag voor observatie en evaluatie te introduceren”, zegt ze.

LangSmith Engine is nu beschikbaar als openbare bèta. Teams kunnen een traceringsproject verbinden, optioneel hun repository verbinden, en Engine zal automatisch beginnen met het opsporen van problemen uit productietraceringen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in