RAG-architecturen zijn in één ding goed: het naar boven halen van semantisch relevante documenten. Dat is ook waar ze stoppen.
Een raamwerk dat een beslissingscontextgrafiek wordt genoemd, pakt deze kloof aan door agenten gestructureerd geheugen, tijdbewust redeneren en expliciete beslissingslogica te geven. Rimpelingeen startup in het Neo4j-ecosysteem, heeft er een gebouwd. Het belangrijkste vermogen: agenten die niet-regressief zijn en gevalideerde reeksen acties kunnen bevriezen en deze in de loop van de tijd kunnen samenstellen.
“Het belangrijkste punt dat je wilt is non-regressie: hoe zorg je ervoor dat, wanneer de agent iets nieuws zal genereren, je kunt voortborduren op de eerdere ontdekkingen?” zegt Yann Bilien, medeoprichter en hoofd wetenschappelijk directeur van Rippletid.
Waarom RAG niet ver genoeg gaat
De bedrijfscontext is verspreid over ERP-tools, logboeken, databases, vectoropslag en beleidsdocumenten. Generatieve AI-tools kunnen alles eruit halen – via zoeken op trefwoorden, SQL-query’s of volledige RAG-pijplijnen – maar het ophalen heeft een plafond.
Met name kunnen de opgehaalde gegevens niet relevant zijn voor de te nemen beslissing (en dus hallucinaties veroorzaken); en zelfs als agenten wel de juiste gegevens verzamelen, ontbreekt het hen vaak aan begeleiding bij het nemen van beslissingen op basis van een sterke onderbouwing.
Dat wil zeggen dat RAG documenten ophaalt, geen beslissingscontext. “Iedereen begint met RAG: haal relevante documenten op, stop ze in de prompt en laat het model het uitzoeken”, zegt Wyatt Mayham van Noordwest AI-advies.
Hoewel dat prima werkt voor chatbots, werkt het ‘onmiddellijk’ voor agenten die beslissingen moeten nemen en actie moeten ondernemen, benadrukte hij. “Het grootste waar bouwers mee worstelen is de kloof tussen vindbaarheid en toepasbaarheid.”
Een opgehaald document vertelt de agent niet of het nog steeds van toepassing is, of het is vervangen of dat er een tegenstrijdige regel is die prioriteit heeft, zei Mayham. “Agenten hebben beslissingscontext nodig, niet alleen informatie.”
In de bouwsector (de menselijke wereld) kan dat betekenen dat je weet dat een prijsuitzondering is verlopen, dat een veiligheidsbeleid alleen in bepaalde rechtsgebieden van toepassing is, of dat een standaardprocedure een maand eerder is bijgewerkt. ‘Als je dat allemaal mist, doet de agent vol vertrouwen het verkeerde,’ zei Mayham.
Zonder een gestructureerde beslissingscontext combineren agenten incompatibele regels, bedenken ze beperkingen om hiaten op te vullen en vertrouwen ze op wat Bilien ‘probabilistische gissingen over grenzeloze gegevens’ noemt. Fouten zijn moeilijk te reproduceren omdat bouwers niet kunnen achterhalen waarom de agent een bepaalde keuze heeft gemaakt.
Het probleem van samengestelde fouten is ook reëel, zei Mayham: een klein aantal gemiste stappen per stap wordt ‘catastrofaal’ in een workflow die uit meerdere stappen bestaat. “Dat is de belangrijkste reden waarom de meeste enterprise-agents de pilotfase nooit verlaten.”
Hoe beslissingscontextgrafieken tot het relevante antwoord leiden
Een beslissingscontextgrafiek lost dit op door een gestructureerde kaart te coderen van wat van toepassing is, wat de regels zijn en wanneer ze van toepassing zijn.
Het raamwerk is geoptimaliseerd voor één vraag: “Welke context is, gezien deze situatie, op dit moment van toepassing?” Tijd wordt behandeld als een eersteklas dimensie; voor elke regel, beslissing en uitzondering geldt het moment waarop deze geldig is.
“Het doel is om ontbrekende, onsamenhangende of tegenstrijdige gegevens expliciet aan te pakken bij het bouwen van de grafiek om probabilistische (fouten) te voorkomen zodra de agent actief is”, aldus Bilien.
Het systeem is opgebouwd rond drie principes:
-
Toepasbaarheid: Logica wordt expliciet gecodeerd, zodat de agent weet welke regels hij in een bepaalde situatie moet onthouden en toepassen. Context wordt alleen geretourneerd als deze relevant is voor de situatie.
-
Tijdbewust geheugen: Elke regel, beslissing en uitzondering is tijdgebonden. Hierdoor kunnen agenten redeneren over “Wat toen waar was versus wat nu waar is”, en vervolgens de beslissingen ervan reproduceren of uitleggen.
-
Beslissingspaden: Het systeem kan uitleggen hoe het van A naar B is gekomen en het ‘waarom’ achter de grondgedachte ervan (bijvoorbeeld waarom het ene stukje context wel was opgenomen en het andere niet). Agenten krijgen voorbeelden van ‘beslissingspaden’ van hoe vergelijkbare zaken eerder werden afgehandeld.
Bij de installatie worden ongestructureerde gegevens opgenomen en gestructureerd in een ontologie: welke entiteiten bestaan, welke regels zijn van toepassing, wat geldt als uitzondering. Neuro-symbolische AI zorgt voor de patroonherkenning en codeert voor formele, machinaal leesbare logica. In de loop van de tijd verfijnt het systeem zijn kennisbasis naarmate er nieuwe beslissingen worden genomen.
“Neuro-symbolisch bestaat uit twee delen: een neuronaal deel dat een grote autonomie geeft aan agenten en een symbolisch deel om het aantal benodigde gegevens te verminderen en controle te krijgen,” zei Bilien.
De agent wordt tijdens de bouwtijd (pre-productie) getest om het gedrag ervan te valideren of verbeteringen aan te wijzen. Dit vermindert zowel de risico’s als de rekenbehoeften tijdens het infereren, merkte hij op.
Agenten leren in plaats van achteruit te gaan
Als het gaat om non-regressie, is het belangrijkste onderdeel het combineren van zowel intelligentie (modellen) als kennis (gedeeld tussen agenten), zei Bilien. Het is belangrijk dat agenten kunnen verkennen; als ze niet weten hoe ze een taak moeten volbrengen, kunnen ze verschillende mogelijkheden proberen, meestal in een gecontroleerde omgeving of simulatie (zoals een ondersteuningsbot die meerdere reactiepatronen probeert).
Vervolgens, “zodra een oplossing als bevredigend wordt beoordeeld, bevriest de grafiek die reeks acties”, zei Bilien. Toekomstig onderzoek begint dan vanuit deze “stabiele basis van gevalideerd gedrag” om te voorkomen dat nieuw verworven vaardigheden eerder aangeleerd goed gedrag overschrijven.
Voordat een agent iets doet of een klant beïnvloedt, vergelijkt hij de grafiek: overtreedt hij een regel? Hallucinerend? Binnen de beperkingen blijven? Kan zij de oplossing generaliseren naar soortgelijke gevallen?
Op macroniveau beoordeelt het systeem de resultaten: heeft het gedrag de prestaties op de lange termijn verbeterd? Is het gegeneraliseerd naar vergelijkbare contexten? Heeft het eerdere mogelijkheden behouden?
“Dit determinisme is van cruciaal belang voor agenten om betrouwbaarheid op grote schaal te kunnen uitvoeren”, zegt Bilien. Het leidt tot gedrag dat consistenter, voorspelbaarder en verklaarbaarder is en een sterkere controle en controleerbaarheid mogelijk maakt.
‘Je wilt dat je agenten zelf kunnen leren als ze met iets worden geconfronteerd dat ze niet kennen,’ zei hij. “Je wilt dat ze nieuwe oplossingen kunnen verkennen en vinden.”
Verder gaan dan het ‘episodische’ geheugen
Hoewel het team er aanvankelijk van uitging dat het RL overal zou inzetten, “bleek dat in een bedrijfsomgeving eigenlijk heel moeilijk”, aldus Bilien. “Gegevens zijn schaars voor sommige specifieke gebruiksscenario’s en rommelig voor andere.”
Normaal gesproken was het gebruik van ruwe data voor betrouwbare voorspellingen een handmatige en tijdrovende uitdaging, maar “nu zijn we met agenten een nieuw tijdperk binnengegaan waarin het bouwen van ontologieën automatisch mogelijk is”, aldus Bilien.
Klassieke methoden voor fijnafstemming onder toezicht kunnen tot oscillaties leiden, wanneer modellen de laatste vaardigheid vergeten die ze hebben geleerd tijdens het leren van de volgende toon. Over het geheel genomen wordt het leren niet gecompliceerder, is compressie ‘dramatisch’ en verbeteren modellen ‘episodisch’ in plaats van continu, waardoor ze voortdurend falen bij nieuwe of onzichtbare taken.
Zoals Bilien opmerkte: “Je zult nooit een volledig zelflerend model hebben als je elke keer achteruit gaat.”
In zakelijke toepassingen – zoals bankieren waar miljoenen transacties per dag worden verwerkt – is een hoge mate van betrouwbaarheid van cruciaal belang, merkte hij op. “Eén vraag die ik aan alle klanten stel: is 95% genoeg? In veel gevallen is dat niet het geval. Je hebt 99,999% nodig. 1% korting is veel te veel.”
Beslissingscontextgrafieken kunnen die kloof dichten, stelt hij: wanneer dezelfde klantondersteuningsvraag herhaaldelijk wordt gesteld, zal de agent voorspelbaar en zonder regressie een “bevredigend” antwoord geven, terwijl hij zijn autonomie behoudt.
Het coderen van toepasbaarheid en temporele validiteit in een gestructureerde grafiek – in plaats van te vertrouwen op een LLM om dit af te leiden – is een ‘goede benadering’ van een echte beperking in bestaande retrieval-frameworks, zei Mayham. De open vraag is of de automatische ontologiegeneratie bestand is tegen de rommelige, diverse data waarover bedrijven feitelijk beschikken. ‘Dat is altijd het moeilijkste’, zei hij.



