Het blijkt moeilijker te zijn om AI-agenten betrouwbaar te laten presteren in de productie – en niet alleen in demo’s – dan bedrijven hadden verwacht. Gefragmenteerde gegevens, onduidelijke workflows en een snelle escalatie vertragen de implementatie in alle sectoren.
“De technologie zelf werkt vaak goed bij demonstraties”, zegt Sanchit Vir Gogia, hoofdanalist bij Greyhound Research. “De uitdaging begint wanneer er gevraagd wordt om binnen de complexiteit van een echte organisatie te opereren.”
Burley Kawasaki, die toezicht houdt op de inzet van agenten bij Creatio, en zijn team hebben een methodologie ontwikkeld die is opgebouwd rond drie disciplines: datavirtualisatie om vertragingen in data lakes te omzeilen; agentdashboards en KPI’s als managementlaag; en strak begrensde use-case-loops om naar een hoge autonomie te streven.
In eenvoudiger gebruiksscenario’s hebben deze praktijken agenten volgens Kawasaki in staat gesteld om tot 80-90% van de taken zelf uit te voeren. Met verdere afstemming schat hij dat ze autonome resolutie in ten minste de helft van de gebruiksscenario’s zouden kunnen ondersteunen, zelfs in complexere implementaties.
“Mensen hebben veel geëxperimenteerd met proof-of-concepts, ze hebben veel tests uitgevoerd”, vertelde Kawasaki aan VentureBeat. “Maar nu, in 2026, beginnen we ons te concentreren op bedrijfskritische workflows die operationele efficiëntie of extra inkomsten genereren.”
Waarom agenten steeds falen in de productie
Bedrijven willen graag agentische AI in een of andere vorm adopteren – vaak omdat ze bang zijn buitengesloten te worden, zelfs voordat ze zelfs maar tastbare gebruiksscenario’s in de praktijk hebben geïdentificeerd – maar lopen tegen aanzienlijke knelpunten aan rond data-architectuur, integratie, monitoring, beveiliging en workflowontwerp.
Het eerste obstakel heeft bijna altijd te maken met data, zei Gogia. Bedrijfsinformatie bestaat zelden in een nette of uniforme vorm; het is verspreid over SaaS-platforms, apps, interne databases en andere datastores. Sommige zijn gestructureerd, andere niet.
Maar zelfs als bedrijven het probleem van het ophalen van gegevens overwinnen, is integratie een grote uitdaging. Agenten vertrouwen op API’s en automatiseringshakes om met applicaties te communiceren, maar veel bedrijfssystemen zijn ontworpen lang voordat dit soort autonome interactie werkelijkheid was, benadrukt Gogia.
Dit kan resulteren in onvolledige of inconsistente API’s, en systemen kunnen onvoorspelbaar reageren wanneer ze programmatisch worden benaderd. Organisaties lopen ook tegen problemen aan als ze proberen processen te automatiseren die nooit formeel zijn gedefinieerd, zegt Gogia.
“Veel zakelijke workflows zijn afhankelijk van stilzwijgende kennis”, zegt hij. Dat wil zeggen dat werknemers weten hoe ze uitzonderingen die ze eerder hebben gezien, moeten oplossen zonder expliciete instructies. Maar die ontbrekende regels en instructies worden verrassend duidelijk wanneer workflows worden vertaald in automatiseringslogica.
De afstemlus
Creatio zet agenten in binnen een “begrensd bereik met duidelijke vangrails”, gevolgd door een “expliciete” afstemmings- en validatiefase, legt Kawasaki uit. Teams beoordelen de eerste resultaten, passen deze indien nodig aan en testen vervolgens opnieuw totdat ze een acceptabel nauwkeurigheidsniveau hebben bereikt.
Die lus volgt doorgaans dit patroon:
-
Afstemming tijdens ontwerptijd (vóór livegang): De prestaties worden verbeterd door snelle engineering, context-wrapping, roldefinities, workflowontwerp en basis in gegevens en documenten.
-
Human-in-the-loop-correctie (tijdens uitvoering): Ontwikkelaars keuren uitzonderingen goed, bewerken of lossen deze op. In gevallen waarin mensen het meest moeten ingrijpen (escalatie of goedkeuring), stellen gebruikers strengere regels vast, bieden ze meer context en werken ze de workflowstappen bij; of ze beperken de toegang tot tools.
-
Doorlopende optimalisatie (na go-live): Ontwikkelaars blijven uitzonderingspercentages en -resultaten monitoren en vervolgens indien nodig herhaaldelijk afstemmen, waardoor de nauwkeurigheid en autonomie in de loop van de tijd worden verbeterd.
Het team van Kawasaki past retrieval-augmented generatie toe op grondagenten in bedrijfskennisbanken, CRM-gegevens en andere eigen bronnen.
Zodra agenten in het wild worden ingezet, worden ze gemonitord met een dashboard dat prestatieanalyses, conversie-inzichten en controleerbaarheid biedt. In wezen worden agenten behandeld als digitale werknemers. Ze hebben een eigen managementlaag met dashboards en KPI’s.
Er zal bijvoorbeeld een onboarding-agent worden opgenomen als een standaard dashboardinterface die agentmonitoring en telemetrie biedt. Dit maakt deel uit van de platformlaag – orkestratie, bestuur, beveiliging, workflowuitvoering, monitoring en UI-inbedding – die ‘boven de LLM’ zit, zei Kawasaki.
Gebruikers zien een dashboard met agenten die in gebruik zijn en elk van hun processen, workflows en uitgevoerde resultaten. Ze kunnen inzoomen op een individueel record (zoals een verwijzing of verlenging) dat een stapsgewijze uitvoeringslogboek en gerelateerde communicatie toont ter ondersteuning van traceerbaarheid, foutopsporing en aanpassingen aan agenten. De meest voorkomende aanpassingen hebben betrekking op logica en prikkels, bedrijfsregels, snelle context en toegang tot tools, zei Kawasaki.
De grootste problemen die zich na de implementatie voordoen:
-
Het verwerkingsvolume voor uitzonderingen kan hoog zijn: Vroege pieken in randgevallen komen vaak voor totdat de vangrails en workflows zijn afgestemd.
-
Gegevenskwaliteit en volledigheid: Ontbrekende of inconsistente velden en documenten kunnen escalaties veroorzaken; teams kunnen identificeren welke gegevens prioriteit moeten krijgen voor aarding en welke controles moeten worden geautomatiseerd.
-
Controleerbaarheid en vertrouwen: Met name gereguleerde klanten hebben duidelijke logboeken, goedkeuringen, op rollen gebaseerde toegangscontrole (RBAC) en audittrails nodig.
“We leggen altijd uit dat je tijd moet besteden aan het opleiden van agenten”, vertelde Katherine Kostereva, CEO van Creatio, aan VentureBeat. “Het gebeurt niet meteen als je de agent inschakelt, het heeft tijd nodig om het volledig te begrijpen, daarna neemt het aantal fouten af.”
“Gegevensgereedheid” vereist niet altijd een revisie
Wanneer u agenten wilt inzetten, is de vraag “Zijn mijn gegevens gereed?” een veel voorkomende vraag. Bedrijven weten dat datatoegang belangrijk is, maar kan worden uitgeschakeld door een grootschalig dataconsolidatieproject.
Maar virtuele verbindingen kunnen agenten toegang geven tot onderliggende systemen en typische data lake/lakehouse/warehouse-vertragingen omzeilen. Het team van Kawasaki heeft een platform gebouwd dat met data integreert, en werkt nu aan een aanpak die data in een virtueel object verzamelt, verwerkt en gebruikt als een standaardobject voor gebruikersinterfaces en workflows. Op deze manier hoeven ze geen grote hoeveelheden gegevens in hun database te ‘behouden of te dupliceren’.
Deze techniek kan nuttig zijn op gebieden als het bankwezen, waar transactievolumes simpelweg te groot zijn om naar CRM te kopiëren, maar “nog steeds waardevol zijn voor AI-analyse en triggers”, aldus Kawasaki.
Zodra integraties en virtuele objecten tot stand zijn gebracht, kunnen teams de volledigheid, consistentie en beschikbaarheid van gegevens evalueren en startpunten met weinig wrijving identificeren (zoals documentintensieve of ongestructureerde workflows).
Kawasaki benadrukte het belang van “het echt gebruiken van de gegevens in de onderliggende systemen, die sowieso de neiging hebben om de schoonste of de bron van de waarheid te zijn.”
Agenten matchen met het werk
Het beste geschikt voor autonome (of bijna-autonome) agenten zijn grootschalige workflows met “een duidelijke structuur en beheersbare risico’s”, aldus Kawasaki. Bijvoorbeeld documentinname en validatie bij onboarding of het voorbereiden van leningen, of gestandaardiseerd bereik zoals verlengingen en verwijzingen.
“Vooral als je ze kunt koppelen aan zeer specifieke processen binnen een branche, kun je de ROI echt meten en realiseren”, zegt hij.
Financiële instellingen zijn bijvoorbeeld vaak van nature in silo’s. Commerciële kredietteams presteren in hun eigen omgeving, vermogensbeheer in een andere. Maar een autonome agent kan afdelingen en afzonderlijke datastores doorzoeken om bijvoorbeeld commerciële klanten te identificeren die goede kandidaten zouden kunnen zijn voor vermogensbeheer of adviesdiensten.
“Je denkt dat dit een voor de hand liggende kans zou zijn, maar niemand kijkt over alle silo’s heen”, zei Kawasaki. Sommige banken die middelen voor dit scenario hebben ingezet, hebben ‘voordelen van miljoenen dollars aan extra inkomsten gezien’, beweerde hij, zonder specifieke instellingen te noemen.
In andere gevallen – vooral in gereguleerde sectoren – hebben agenten met een langere context echter niet alleen de voorkeur, maar zijn ze ook noodzakelijk. Bijvoorbeeld bij taken die uit meerdere stappen bestaan, zoals het verzamelen van bewijsmateriaal in verschillende systemen, het samenvatten, vergelijken, opstellen van communicatie en het produceren van controleerbare beweegredenen.
‘De agent geeft je niet onmiddellijk een antwoord,’ zei Kawasaki. “Het kan uren, dagen duren om volledige end-to-end taken uit te voeren.”
Dit vereist een georkestreerde executie door agenten in plaats van een ‘enkele gigantische prompt’, zei hij. Deze aanpak verdeelt het werk in deterministische stappen die door subagenten moeten worden uitgevoerd. Geheugen- en contextbeheer kan over verschillende stappen en tijdsintervallen worden gehandhaafd. Door te aarden met RAG kan de uitvoer aan goedgekeurde bronnen worden gekoppeld, en kunnen gebruikers de uitbreiding naar bestandsshares en andere documentopslagplaatsen dicteren.
Voor dit model is doorgaans geen aangepaste omscholing of een nieuw basismodel vereist. Welk model bedrijven ook gebruiken (GPT, Claude, Gemini), de prestaties verbeteren door aanwijzingen, roldefinities, gecontroleerde tools, workflows en data-gronding, aldus Kawasaki.
De feedbackloop legt “extra nadruk” op tussenliggende controlepunten, zei hij. Mensen beoordelen tussenliggende artefacten (zoals samenvattingen, geëxtraheerde feiten of conceptaanbevelingen) en corrigeren fouten. Deze kunnen vervolgens worden omgezet in betere regels en ophaalbronnen, smallere toolscopes en verbeterde sjablonen.
“Wat belangrijk is voor deze stijl van autonome agenten, is dat je het beste van twee werelden combineert: de dynamische redenering van AI, met de controle en kracht van echte orkestratie”, aldus Kawasaki.
Uiteindelijk hebben agenten gecoördineerde veranderingen nodig binnen de bedrijfsarchitectuur, nieuwe orkestratieframeworks en expliciete toegangscontroles, aldus Gogia. Aan agenten moeten identiteiten worden toegewezen om hun bevoegdheden te beperken en binnen de perken te houden. Waarneembaarheid is van cruciaal belang; monitoringtools kunnen de voltooiingspercentages van taken, escalatiegebeurtenissen, systeeminteracties en foutpatronen registreren. Dit soort evaluatie moet een permanente praktijk zijn, en agenten moeten worden getest om te zien hoe ze reageren wanneer ze met nieuwe scenario’s en ongebruikelijke input worden geconfronteerd.
“Op het moment dat een AI-systeem actie kan ondernemen, moeten bedrijven een aantal vragen beantwoorden die zelden voorkomen tijdens de inzet van copiloten”, aldus Gogia. Zoals: Tot welke systemen heeft de agent toegang? Welke soorten acties kan zij zonder goedkeuring uitvoeren? Welke activiteiten vereisen altijd een menselijke beslissing? Hoe wordt elke actie geregistreerd en beoordeeld?
“Degenen (ondernemingen) die de uitdaging onderschatten, komen vaak vast te zitten in demonstraties die er indrukwekkend uitzien, maar de echte operationele complexiteit niet kunnen overleven”, aldus Gogia.



