Home Nieuws OfficeQA van Databricks legt de verbinding bloot: AI-agents slagen in abstracte tests,...

OfficeQA van Databricks legt de verbinding bloot: AI-agents slagen in abstracte tests, maar blijven hangen bij 45% op bedrijfsdocumenten

5
0
OfficeQA van Databricks legt de verbinding bloot: AI-agents slagen in abstracte tests, maar blijven hangen bij 45% op bedrijfsdocumenten

Er is tegenwoordig geen tekort aan AI-benchmarks op de markt, met populaire opties zoals Het laatste examen van de mensheid (HLE), ARC-AGI-2 en GDPval, onder vele anderen.

AI-agenten blinken uit in het oplossen van abstracte wiskundige problemen en het behalen van examens op PhD-niveau waarop de meeste benchmarks zijn gebaseerd, maar Databricks heeft een vraag voor de onderneming: kunnen ze daadwerkelijk het documentzware werk aan dat de meeste ondernemingen van hen nodig hebben?

Het antwoord is volgens nieuw onderzoek van het data- en AI-platformbedrijf ontnuchterend. Zelfs de best presterende AI-agenten bereiken een nauwkeurigheid van minder dan 45% bij taken die de werkelijke werklast van een onderneming weerspiegelen, waardoor een kritische kloof wordt blootgelegd tussen academische benchmarks en de zakelijke realiteit.

“Als we onze onderzoeksinspanningen richten op het beter worden in (bestaande benchmarks), lossen we waarschijnlijk niet de juiste problemen op om van Databricks een beter platform te maken”, legt Erich Elsen, hoofdonderzoeker bij Databricks, uit aan VentureBeat. “Dus daarom hebben we rondgekeken. Hoe creëren we een benchmark die, als we er beter in worden, we ook daadwerkelijk beter worden in het oplossen van de problemen van onze klanten?”

Het resultaat is OfficeQA, een benchmark die is ontworpen om AI-agenten te testen op gegrond redeneren: het beantwoorden van vragen op basis van complexe bedrijfseigen datasets met ongestructureerde documenten en tabelgegevens. In tegenstelling tot bestaande benchmarks die zich richten op abstracte mogelijkheden, zijn OfficeQA-proxy’s geschikt voor de economisch waardevolle taken die bedrijven daadwerkelijk uitvoeren.

Waarom academische benchmarks het ondernemingscijfer missen

Volgens Elsen zijn er talloze tekortkomingen van populaire AI-benchmarks vanuit ondernemingsperspectief.

HLE bevat vragen die expertise op PhD-niveau vereisen op verschillende gebieden. ARC-AGI evalueert abstract redeneren door visuele manipulatie van gekleurde rasters. Beide verleggen de grenzen van de AI-mogelijkheden, maar weerspiegelen niet het dagelijkse bedrijfswerk. Zelfs GDPval, dat speciaal in het leven werd geroepen om economisch nuttige taken te evalueren, mist zijn doel.

“We hebben een behoorlijk zware wetenschappelijke of technische achtergrond, en soms creëren we evaluaties die dat weerspiegelen”, zei Elsen. “Dus ze zijn ofwel extreem wiskunde-intensief, wat een geweldige, nuttige taak is, maar het verleggen van de grenzen van de menselijke wiskunde is niet wat klanten proberen te doen met Databricks.”

Hoewel AI vaak wordt gebruikt voor klantenondersteuning en coderingsapps, heeft het klantenbestand van Databricks een bredere reeks vereisten. Elsen merkte op dat het beantwoorden van vragen over documenten of corpora van documenten een veel voorkomende ondernemingstaak is. Deze vereisen het ontleden van complexe tabellen met geneste kopteksten, het ophalen van informatie uit tientallen of honderden documenten en het uitvoeren van berekeningen waarbij een fout van één cijfer ertoe kan leiden dat organisaties onjuiste zakelijke beslissingen nemen.

Een benchmark bouwen die de complexiteit van bedrijfsdocumenten weerspiegelt

Om een ​​zinvolle test van het gegronde redeneervermogen te kunnen maken, had Databricks een dataset nodig die de rommelige realiteit van propriëtaire bedrijfsdocumentcorpora benadert, terwijl deze vrij beschikbaar blijft voor onderzoek. Het team belandde in de Amerikaanse Treasury Bulletins, die vanaf 1939 maandelijks gedurende vijf decennia werden gepubliceerd, en daarna elk kwartaal.

De Treasury Bulletins controleren elk vakje op de complexiteit van bedrijfsdocumenten. Elk bulletin beslaat 100 tot 200 pagina’s en bestaat uit proza, complexe tabellen, grafieken en figuren die de operaties van het ministerie van Financiën beschrijven: waar federaal geld vandaan kwam, waar het naartoe ging en hoe het overheidsoperaties financierde. Het corpus beslaat ongeveer 89.000 pagina’s, verspreid over acht decennia. Tot 1996 waren de bulletins scans van fysieke documenten; daarna waren het digitaal geproduceerde pdf’s. USAFacts, een organisatie met als missie “overheidsgegevens gemakkelijker toegankelijk en begrijpelijker te maken”, werkte samen met Databricks om de benchmark te ontwikkelen, waarbij Treasury Bulletins als ideaal werden geïdentificeerd en ervoor werd gezorgd dat vragen realistische gebruiksscenario’s weerspiegelden.

De 246 vragen vereisen dat agenten rommelige, realistische documentuitdagingen aanpakken: gescande afbeeldingen, hiërarchische tabelstructuren, tijdelijke gegevens die meerdere rapporten omvatten en de behoefte aan externe kennis zoals inflatieaanpassingen. Vragen variëren van eenvoudige zoekacties naar waarden tot meerstapsanalyses waarvoor statistische berekeningen en vergelijkingen over jaren heen nodig zijn.

Om ervoor te zorgen dat de benchmark feitelijk documentgebaseerd ophalen vereist, filterde Databricks vragen uit die LLM’s konden beantwoorden met alleen parametrische kennis of zoeken op internet. Hierdoor werden eenvoudiger vragen verwijderd en een aantal verrassend complexe vragen waarbij modellen gebruikmaakten van historische financiële gegevens die ze tijdens de pre-training uit het hoofd hadden geleerd.

Elke vraag heeft een gevalideerd grondwaarheidsantwoord (meestal een getal, soms datums of kleine lijsten), waardoor geautomatiseerde evaluatie zonder menselijk oordeel mogelijk is. Deze ontwerpkeuze is van belang: het maakt versterkende leerbenaderingen (RL) mogelijk die verifieerbare beloningen vereisen, vergelijkbaar met de manier waarop modellen trainen op codeerproblemen.

De huidige prestaties leggen fundamentele hiaten bloot

Databricks heeft Claude Opus 4.5 Agent (met behulp van de SDK van Claude) en GPT-5.1 Agent (met behulp van de File Search API van OpenAI) getest. De resultaten zouden elke onderneming die zwaar inzet op de huidige mogelijkheden van agenten een pauze moeten inblazen.

Indien voorzien van onbewerkte PDF-documenten:

De prestaties verbeterden echter merkbaar wanneer ze werden voorzien van vooraf geparseerde versies van pagina’s met behulp van Databricks’ ai_parse_documentwat aangeeft dat de slechte onbewerkte PDF-prestaties voortkomen uit LLM-API’s die worstelen met parseren in plaats van redeneren. Zelfs met geparseerde documenten laten de experimenten ruimte voor verbetering zien.

Indien voorzien van documenten die zijn geparseerd met behulp van Databricks ai_parse_document:

Drie bevindingen die van belang zijn voor bedrijfsimplementaties

De tests identificeerden cruciale inzichten voor praktijkmensen:

Parseren blijft de fundamentele blokkering: Complexe tabellen met geneste kopteksten, samengevoegde cellen en ongebruikelijke opmaak produceren vaak verkeerd uitgelijnde waarden. Zelfs als ze exacte orakelpagina’s kregen, hadden agenten vooral te kampen met parseerfouten, hoewel de prestaties ruwweg verdubbelden met vooraf geparseerde documenten.

Documentversiebeheer zorgt voor dubbelzinnigheid: Financiële en regelgevende documenten worden herzien en opnieuw uitgegeven, wat betekent dat er meerdere geldige antwoorden bestaan, afhankelijk van de publicatiedatum. Agenten stoppen vaak met zoeken zodra ze een plausibel antwoord hebben gevonden, waarbij ze meer gezaghebbende bronnen missen.

Visueel redeneren is een leemte: Ongeveer 3% van de vragen vereist interpretatie van diagrammen of grafieken, terwijl de huidige agenten consequent falen. Voor ondernemingen waar datavisualisaties kritische inzichten communiceren, betekent dit een betekenisvolle beperking van de mogelijkheden.

Hoe ondernemingen OfficeQA kunnen gebruiken

Het ontwerp van de benchmark maakt specifieke verbeteringstrajecten mogelijk die verder gaan dan alleen maar scoren.

“Omdat je naar het juiste antwoord kunt kijken, kun je gemakkelijk bepalen of de fout door het parseren komt”, legt Elsen uit.

Deze geautomatiseerde evaluatie maakt snelle herhaling van het parseren van pijplijnen mogelijk. De geverifieerde grondwaarheidsantwoorden maken ook RL-training mogelijk, vergelijkbaar met codeerbenchmarks, omdat er geen menselijk oordeel vereist is.

Elsen zei dat de benchmark “een heel sterk feedbacksignaal” biedt voor ontwikkelaars die aan zoekoplossingen werken. Hij waarschuwde er echter voor om het niet als trainingsgegevens te behandelen.

“In ieder geval in mijn verbeelding is het doel van het vrijgeven hiervan meer een evaluatie en niet als een bron van ruwe trainingsgegevens”, zei hij. “Als je te specifiek op deze omgeving afstemt, is het niet duidelijk hoe generaliseerbaar de resultaten van je agenten zouden zijn.”

Wat dit betekent voor zakelijke AI-implementaties

Voor bedrijven die momenteel documentzware AI-agentsystemen inzetten of plannen, biedt OfficeQA een ontnuchterende realitycheck. Zelfs de nieuwste grensverleggende modellen bereiken een nauwkeurigheid van slechts 43% op onverwerkte PDF’s en blijven onder de 70% nauwkeurigheid, zelfs bij optimale documentparsering. De prestaties op de moeilijkste vragen blijven steken op 40%, wat erop wijst dat er aanzienlijke ruimte voor verbetering is.

Drie directe gevolgen:

Evalueer de complexiteit van uw document: Als uw documenten lijken op het complexiteitsprofiel van Treasury Bulletins (gescande afbeeldingen, geneste tabelstructuren, verwijzingen tussen documenten), kunt u een nauwkeurigheid verwachten die ver beneden de marketingclaims van leveranciers ligt. Test uw daadwerkelijke documenten vóór de productie-implementatie.

Plan voor het parseringsknelpunt: De testresultaten geven aan dat parseren een fundamentele blokkering blijft. Budgeteer tijd en middelen voor op maat gemaakte parseeroplossingen in plaats van aan te nemen dat kant-en-klare OCR voldoende zal zijn.

Plan voor mislukkingen bij moeilijke vragen: Zelfs met optimaal parseren blijven agenten op 40% steken bij complexe vragen die uit meerdere stappen bestaan. Voor bedrijfskritische documentworkflows die analyse van meerdere documenten, statistische berekeningen of visueel redeneren vereisen, zijn de huidige agentcapaciteiten mogelijk niet gereed zonder aanzienlijk menselijk toezicht.

Voor ondernemingen die leiding willen geven op het gebied van AI-aangedreven documentintelligentie biedt deze benchmark een concreet evaluatiekader en identificeert specifieke lacunes in de capaciteiten die moeten worden opgelost.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in