Home Nieuws Databricks: ‘PDF-parsing voor agentische AI ​​is nog steeds niet opgelost’ – nieuwe...

Databricks: ‘PDF-parsing voor agentische AI ​​is nog steeds niet opgelost’ – nieuwe tool vervangt pijplijnen met meerdere services door één functie

9
0
Databricks: ‘PDF-parsing voor agentische AI ​​is nog steeds niet opgelost’ – nieuwe tool vervangt pijplijnen met meerdere services door één functie

Er zitten veel bedrijfsgegevens vast in PDF-documenten. De eerlijkheid gebiedt te zeggen dat de generatie AI-tools PDF’s konden verwerken en analyseren, maar nauwkeurigheid, tijd en kosten waren niet ideaal. Nieuwe technologie van Databricks zou dat kunnen veranderen.

Het bedrijf heeft deze week zijn “ai_parse_document”-technologie gedetailleerd beschreven, nu geïntegreerd met Databricks’ Agent Bricks-platform. De technologie pakt een kritiek knelpunt aan bij de adoptie van AI in ondernemingen: ongeveer 80% van de bedrijfskennis blijft opgesloten in pdf’s, rapporten en diagrammen die AI-systemen moeilijk accuraat kunnen verwerken en begrijpen.

“Het is een algemene veronderstelling dat het parseren van PDF’s een opgelost probleem is, maar in werkelijkheid is dat niet het geval”, vertelde Erich Elsen, hoofdonderzoeker bij Databricks, aan VentureBeat. “De uitdaging is niet alleen dat documenten ongestructureerd zijn; het is ook dat bedrijfs-pdf’s inherent complex zijn. Ze combineren digitale inhoud met gescande pagina’s en foto’s van fysieke documenten, naast tabellen, grafieken en onregelmatige lay-outs, en de meeste bestaande tools slagen er niet in om die informatie nauwkeurig vast te leggen.”

De verborgen complexiteit achter het parseren van documenten

Hoewel optische tekenherkenning (OCR) al tientallen jaren bestaat, stelt Elsen dat het extraheren van bruikbare, gestructureerde gegevens uit echte bedrijfsdocumenten fundamenteel onopgelost blijft.

Belangrijke elementen zoals tabellen met samengevoegde cellen, bijschriften van figuren en ruimtelijke relaties tussen documentelementen worden routinematig weggelaten of verkeerd gelezen door bestaande tools, waardoor downstream AI-toepassingen, retrieval-augmentedgeneration (RAG)-systemen of business intelligence-dashboards onbetrouwbaar worden.

De typische oplossing voor ondernemingen is het op elkaar stapelen van meerdere onvolmaakte tools: één service voor lay-outdetectie, een andere voor OCR, een derde voor het extraheren van tabellen, evenals aanvullende API’s voor figuuranalyse. Deze aanpak vereist maanden van aangepaste data-engineering en doorlopend onderhoud naarmate documentformaten evolueren.

“Ter compensatie moesten teams meerdere onvolmaakte tools op elkaar stapelen of uitgebreide pijplijnen op maat bouwen, waarbij ze maandenlang bezig waren met data-engineering in plaats van met innovatie”, aldus Elsen. “ai_parse_document lost dat op door volledige, gestructureerde gegevens uit documenten uit de echte wereld te extraheren, zodat organisaties eindelijk ongestructureerde gegevens rechtstreeks binnen Databricks kunnen vertrouwen en opvragen.”

Technische aanpak: end-to-end training versus pijplijnstapelen

Er zijn tegenwoordig meerdere services op de markt voor het parseren van PDF’s, waaronder onder meer AWS Textract, Google Document AI en Azure Document Intelligence. Elsen betoogde dat de tool, in plaats van alleen maar tekst te lezen, een systeem van moderne AI-componenten gebruikt die end-to-end zijn getraind om gestructureerde context met de modernste kwaliteit te extraheren.

De functie gaat verder dan de basisextractie en legt het volgende vast:

  • Tabellen blijven precies behouden zoals ze verschijnen, inclusief samengevoegde cellen en geneste structuren

  • Figuren en diagrammen met door AI gegenereerde bijschriften en beschrijvingen

  • Ruimtelijke metadata en selectiekaders voor nauwkeurige elementlocatie

  • Optionele beelduitvoer voor multimodale zoektoepassingen

Alle resultaten worden rechtstreeks in de Databricks Unity Catalog opgeslagen als Delta-tabellen, wat betekent dat geparseerde documenten doorzoekbare gestructureerde gegevens worden zonder de Databricks-omgeving te verlaten. Dit is een belangrijke onderscheidende factor ten opzichte van clouddiensten waarbij gegevens moeten worden geëxporteerd voor verwerking.

“Dankzij datagerichte training en geoptimaliseerde inferentie hebben we 3 tot 5 keer lagere kosten gerealiseerd, terwijl we toonaangevende systemen als Textract, Document AI en Azure Document Intelligence evenaren of overtreffen”, aldus Elsen.

Vroege adoptie door ondernemingen in de productie- en industriële sectoren

Verschillende grote ondernemingen hebben ai_parse_document al in productie geïmplementeerd met gebruiksscenario’s die de optimalisatie van data science-workflows, democratisering van documentverwerking en de ontwikkeling van RAG-applicaties omvatten.

Elsen merkte bijvoorbeeld op dat Rockwell Automation ai_parse_document gebruikt om de configuratieoverhead voor zijn datawetenschappers te verminderen.

“Wat ooit een aanzienlijke set-up vereiste om complexe oplossingen te ondersteunen, is nu gestroomlijnd, waardoor hun teams meer tijd kunnen besteden aan innovatie en minder tijd aan het beheren van de infrastructuur”, zei hij.

TE Connectivity gebruikt ondertussen ai_parse_document om ongestructureerde gegevensverwerking te democratiseren.

“Voorheen vereiste het extraheren van tabellen, tekst en metagegevens uit documenten complexe, code-intensieve workflows”, aldus Elsen. “Met Databricks hebben ze dat allemaal samengevat in één enkele SQL-functie, waardoor geavanceerde documentverwerking toegankelijk is voor elk datateam, niet alleen voor datawetenschappers.”

Emerson Electric is een andere early adopter. Het bedrijf gebruikt ai_parse_document voor een RAG-use-case. Elsen legde uit dat Emerson, door parallelle documentparsing rechtstreeks binnen Delta-tabellen mogelijk te maken, het bouwen van RAG-applicaties zowel snel als eenvoudig heeft gemaakt, allemaal binnen de bestaande Databricks-omgeving.

Het platformintegratiespel

Hoewel Databricks een lange geschiedenis heeft met open source, is de ai_parse_document technologie een eigen onderdeel van het Databricks-platform.

In tegenstelling tot zelfstandige documentintelligentie-API’s is ai_parse_document diep geïntegreerd met het Agent Bricks-platform van Databricks, een verzameling AI-functies en orkestratiemogelijkheden voor het bouwen van productie-AI-agents.

De functie werkt met de bredere data-infrastructuur van Databricks, waaronder:

  • Spark declaratieve pijplijnen: Zorg voor automatische incrementele verwerking, wat betekent dat nieuwe documenten die binnenkomen in SharePoint, S3 of Azure Data Lake Storage automatisch worden geparseerd zonder handmatige orkestratie.

  • Unity-catalogus: Beheert machtigingen, audittrails en gegevensafstamming voor geparseerde inhoud op precies dezelfde manier als voor gestructureerde gegevens.

  • Vector zoeken: Indexeert ontlede documentelementen, inclusief tekst, tabellen en figuren met bijschriften voor multimodale RAG-toepassingen.

  • AI-functieketen: Hiermee kunnen ontwikkelaars ai_parse_document-uitvoer rechtstreeks doorsturen naar ai_extract (entiteitsextractie), ai_classify (documentcategorisering) en ai_summarize (samenvatting van inhoud) binnen één enkele SQL-query.

  • Supervisor van meerdere agenten: Coördineert documentverwerkingsagenten met andere gespecialiseerde agenten voor complexe workflows.

“Het ontleden is slechts het begin en zelden een einde op zichzelf”, zei Elsen. “Het doel is om klanten in staat te stellen onze ai_functies, zoals ai_extract en ai_classify, samen met ai_parse_document te koppelen om hun documenten om te zetten in bruikbare gegevens en inzichten. We streven er ook naar om het naadloos te maken om een ​​corpus van documenten om te zetten in een kennisdatabase voor gebruik in RAG of andere middelen voor het ophalen van informatie.”

Wat dit betekent voor de AI-strategie van ondernemingen

Voor bedrijven die AI-agentsystemen bouwen, is het van cruciaal belang om te begrijpen hoe PDF-documenten daadwerkelijk door systemen worden gebruikt en begrepen.

De Databricks-aanpak werpt nieuw licht op een probleem dat velen als een opgelost probleem zouden kunnen beschouwen. Het daagt bestaande verwachtingen uit met een nieuwe architectuur die meerdere soorten workflows ten goede zou kunnen komen. Dit is echter een platformspecifieke mogelijkheid die zorgvuldige evaluatie vereist voor organisaties die Databricks nog niet gebruiken.

Voor technische besluitvormers die AI-agentplatforms evalueren, is de belangrijkste conclusie dat documentintelligentie verschuift van een gespecialiseerde externe dienst naar een geïntegreerde platformcapaciteit.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in