Datateams die AI-agenten bouwen, komen steeds in dezelfde faalmodus terecht. Vragen die vereisen dat gestructureerde gegevens worden samengevoegd met ongestructureerde inhoud, verkoopcijfers naast klantrecensies of citatietellingen naast academische artikelen, breken single-turn RAG-systemen.
Nieuw onderzoek van Databricks geeft een cijfer aan die mislukkingskloof. Het AI-onderzoeksteam van het bedrijf testte een meerstaps-agentische aanpak tegen de modernste single-turn RAG-baselines voor negen zakelijke kennistaken en rapporteerde winsten van 20% of meer op Stanfords STaRK-benchmarksuite, samen met consistente verbeteringen in de eigen Databricks-database. KARLBench-evaluatiekaderzo blijkt uit het onderzoek. Databricks stelt dat de prestatiekloof tussen single-turn RAG en multi-step agents bij hybride datataken een architectonisch probleem is, en geen modelkwaliteitsprobleem.
Het werk bouwt voort op databricks eerder geïnstrueerde retriever onderzoek, dat verbeteringen in het ophalen van ongestructureerde gegevens aantoonde met behulp van metagegevensbewuste zoekopdrachten. Dit nieuwste onderzoek voegt gestructureerde gegevensbronnen, relationele tabellen en SQL-opslagplaatsen toe aan dezelfde redeneringslus, en richt zich op de categorie vragen die bedrijven doorgaans niet kunnen beantwoorden met de huidige agent-architecturen.
“RAG werkt, maar schaalt niet”, vertelde Michael Bendersky, onderzoeksdirecteur bij Databricks, aan VentureBeat. “Als je je agent nog beter wilt maken en wilt begrijpen waarom je omzet daalt, moet je de agent nu helpen de tabellen en verkoopgegevens te bekijken. Je RAG-pijplijn zal incompetent worden voor die taak.”
Ophalen in één beurt kan geen structurele beperkingen coderen
De kernbevinding is dat standaard RAG-systemen falen wanneer een zoekopdracht een nauwkeurig gestructureerd filter combineert met een semantische zoekopdracht met een open einde.
Denk eens aan een vraag als ‘Van welke van onze producten is de verkoop de afgelopen drie maanden afgenomen, en welke mogelijk daarmee samenhangende problemen worden naar voren gebracht in klantrecensies op verschillende verkopersites?’ De verkoopgegevens bevinden zich in een magazijn. Het recensie-sentiment leeft in ongestructureerde documenten op verkoperssites. Een single-turn RAG-systeem kan die zoekopdracht niet splitsen, elke helft naar de juiste gegevensbron leiden en de resultaten combineren.
Om te bevestigen dat dit eerder een architectuurprobleem dan een modelkwaliteitsprobleem is, heeft Databricks de gepubliceerde STaRK-basislijnen opnieuw beoordeeld met behulp van een huidig state-of-the-art funderingsmodel. Het sterkere model verloor volgens het onderzoek nog steeds van de meerstapsagent met 21% op academisch gebied en 38% op biomedisch gebied.
STaRK is een benchmark gepubliceerd door Stanford-onderzoekers die drie semi-gestructureerde retrievaldomeinen bestrijkt: Amazon-productgegevens, de Microsoft Academic Graph en een biomedische kennisbank.
Hoe de Supervisor Agent omgaat met wat RAG niet kan
Databricks heeft de Supervisor Agent gebouwd als de productie-implementatie van deze onderzoeksaanpak, en de architectuur ervan illustreert waarom de winst consistent is voor alle taaktypen. De aanpak omvat drie kernstappen:
Parallelle gereedschapsontleding. In plaats van één brede zoekopdracht te geven en te hopen dat de resultaten zowel gestructureerde als ongestructureerde behoeften dekken, vuurt de agent tegelijkertijd SQL- en vectorzoekopdrachten af en analyseert vervolgens de gecombineerde resultaten voordat hij besluit wat hij vervolgens gaat doen. Die parallelle stap maakt het mogelijk om zoekopdrachten af te handelen die de grenzen van het gegevenstype overschrijden zonder dat de gegevens eerst moeten worden genormaliseerd.
Zelfcorrectie. Wanneer een eerste ophaalpoging op een doodlopende weg stuit, detecteert de agent de fout, herformuleert de zoekopdracht en probeert een ander pad. Bij een STaRK-benchmarktaak waarbij een artikel van een auteur met precies 115 eerdere publicaties over een specifiek onderwerp moet worden gevonden, voert de agent eerst parallelle query’s uit op zowel SQL- als vectorzoekopdrachten. Wanneer de twee resultaatsets geen overlap vertonen, past het zich aan en geeft een SQL JOIN uit over beide beperkingen, waarna het vectorzoeksysteem wordt aangeroepen om het resultaat te verifiëren voordat het antwoord wordt geretourneerd.
Declaratieve configuratie. De agent is niet afgestemd op een specifieke dataset of taak. Als u deze aan een nieuwe gegevensbron koppelt, betekent dit dat u in eenvoudige taal beschrijft wat die bron bevat en welke vragen deze moet beantwoorden. Er is geen aangepaste code vereist.
“De agent kan dingen doen zoals het ontleden van de vraag in een SQL-query en een kant-en-klare zoekopdracht”, aldus Bendersky. “Het kan de resultaten van SQL en RAG combineren, over die resultaten redeneren, vervolgvragen stellen en vervolgens redeneren of het definitieve antwoord daadwerkelijk is gevonden.”
Het gaat niet alleen om hybride ophalen
Het onderscheid dat Databricks maakt, gaat niet over de ophaaltechniek, maar over de architectuur.
“We zien het bijna niet als een hybride opzoeking waarbij je insluitingen en zoekresultaten combineert, of insluitingen en tabellen”, zei hij. “Wij zien dit meer als een agent die toegang heeft tot meerdere tools.”
Het praktische gevolg van deze framing is dat het toevoegen van een nieuwe gegevensbron betekent dat deze aan de agent moet worden gekoppeld en dat er een beschrijving moet worden geschreven van wat deze bevat. De agent handelt routering en orkestratie af zonder aanvullende code.
Aangepaste RAG-pijplijnen vereisen dat gegevens worden geconverteerd naar een formaat dat het ophaalsysteem kan lezen, meestal tekstblokken met insluitingen. SQL-tabellen moeten worden afgevlakt, JSON moet worden genormaliseerd. Elke nieuwe gegevensbron die aan de pijplijn wordt toegevoegd, betekent meer conversiewerk. Uit het onderzoek van Databricks wordt betoogd dat naarmate bedrijfsgegevens steeds meer brontypen omvatten, deze last aangepaste pipelines steeds onpraktischer maakt vergeleken met een agent die elke bron in zijn oorspronkelijke formaat bevraagt.
“Breng de agent gewoon naar de gegevens”, zei Bendersky. “Je geeft de agent feitelijk meer bronnen, en hij zal ze redelijk goed leren gebruiken.”
Wat dit betekent voor bedrijven
Voor data-ingenieurs die evalueren of ze aangepaste RAG-pijplijnen moeten bouwen of een declaratief agent-framework moeten adopteren, biedt het onderzoek een duidelijke richting: als de taak vragen omvat die gestructureerde en ongestructureerde gegevens omvatten, is het bouwen van aangepaste retrieval het moeilijkere pad. Uit het onderzoek bleek dat bij alle geteste taken de enige dingen die verschilden tussen de implementaties de instructies en beschrijvingen van de tools waren. De agent regelde de rest.
De praktische grenzen zijn reëel, maar beheersbaar. De aanpak werkt goed met vijf tot tien gegevensbronnen. Als je er te veel tegelijk toevoegt, zonder te bepalen welke bronnen complementair zijn in plaats van tegenstrijdig, wordt de agent langzamer en minder betrouwbaar. Bendersky raadt aan om stapsgewijs te schalen en de resultaten bij elke stap te verifiëren, in plaats van alle beschikbare gegevens vooraf te verbinden.
Accuratesse van data is een voorwaarde. De agent kan zoekopdrachten uitvoeren in niet-overeenkomende formaten, JSON-beoordelingsfeeds naast SQL-verkooptabellen, zonder dat normalisatie nodig is. Het kan geen brongegevens corrigeren die feitelijk onjuist zijn. Door tijdens de opname een beschrijving in duidelijke taal van elke gegevensbron toe te voegen, kan de agent zoekopdrachten vanaf het begin correct routeren.
Het onderzoek positioneert dit als een vroege stap in een langer traject. Naarmate de AI-workloads van ondernemingen volwassener worden, wordt van agenten verwacht dat ze met tientallen brontypen kunnen redeneren, waaronder dashboards, codeopslagplaatsen en externe datafeeds. Het onderzoek betoogt dat het de declaratieve benadering is die deze schaalbaarheid hanteerbaar maakt, omdat het toevoegen van een nieuwe bron eerder een configuratieprobleem dan een technisch probleem blijft.
“Dit lijkt een beetje op een ladder”, zei Bendersky. “De agent krijgt langzaam steeds meer informatie en verbetert dan langzaam in het algemeen.”


