Home Nieuws De meeste RAG-systemen begrijpen geen geavanceerde documenten; ze vernietigen ze

De meeste RAG-systemen begrijpen geen geavanceerde documenten; ze vernietigen ze

3
0
De meeste RAG-systemen begrijpen geen geavanceerde documenten; ze vernietigen ze

Inmiddels hebben veel bedrijven een of andere vorm van RAG ingezet. De belofte is verleidelijk: indexeer uw PDF’s, sluit een LLM aan en democratiseer onmiddellijk uw bedrijfskennis.

Maar voor industrieën die afhankelijk zijn van zware techniek is de realiteit teleurstellend. Ingenieurs stellen specifieke vragen over infrastructuur, en de bot hallucineert.

De mislukking zit niet in de LLM. De fout zit in de voorbewerking.

Standaard RAG-pijplijnen behandelen documenten als platte tekstreeksen. Ze gebruiken ‘chunking met een vaste grootte’ (het knippen van een document om de 500 tekens). Dit werkt voor proza, maar het vernietigt de logica van technische handleidingen. Het snijdt tabellen in tweeën, scheidt bijschriften van afbeeldingen en negeert de visuele hiërarchie van de pagina.

IHet verbeteren van de betrouwbaarheid van RAG gaat niet over het kopen van een groter model; het gaat over het oplossen van het ‘dark data’-probleem door middel van semantische chunking en multimodale tekstualisering.

Hier is het architecturale raamwerk voor het bouwen van een RAG-systeem dat daadwerkelijk een handleiding kan lezen.

De misvatting van chunking met een vaste grootte

In een standaard Python RAG-tutorial splitst u tekst op basis van het aantal tekens. In een bedrijfs-PDF is dit rampzalig.

Als een tabel met veiligheidsspecificaties 1.000 tokens omvat, en uw chunkgrootte is 500, dan heeft u zojuist de header ‘spanningslimiet’ gesplitst van de waarde ‘240V’. De vectordatabase bewaart ze apart. Wanneer een gebruiker vraagt: “Wat is de spanningslimiet?”, Vindt het ophaalsysteem de header maar niet de waarde. De LLM, gedwongen te antwoorden, gokt vaak.

De oplossing: semantische chunking

De eerste stap om de productie-RAG te verbeteren is het opgeven van willekeurige karaktertellingen ten gunste van documentintelligentie.

Met behulp van opmaakbewuste parseerhulpmiddelen (zoals Azure Document Intelligence) kunnen we gegevens segmenteren op basis van de documentstructuur, zoals hoofdstukken, secties en alinea’s, in plaats van op het aantal tokens.

  • Logische samenhang: Een sectie die een specifiek machineonderdeel beschrijft, wordt als één vector bewaard, zelfs als deze in lengte varieert.

  • Tafelbehoud: De parser identificeert een tabelgrens en dwingt het hele raster tot één stuk, waarbij de rij-kolomrelaties behouden blijven die essentieel zijn voor nauwkeurig ophalen.

In onze interne kwalitatieve benchmarks verbeterde de overstap van vaste naar semantische chunking de ophaalnauwkeurigheid van tabelgegevens aanzienlijk, waardoor de fragmentatie van technische specificaties effectief werd tegengegaan.

Visuele donkere gegevens ontsluiten

De tweede faalwijze van ondernemings-RAG is blindheid. Een enorme hoeveelheid bedrijfs-IP bestaat niet in tekst, maar in stroomdiagrammen, schema’s en systeemarchitectuurdiagrammen. Standaard insluitingsmodellen (zoals text-embedding-3-small) kunnen deze afbeeldingen niet “zien”. Ze worden tijdens het indexeren overgeslagen.

Als uw antwoord in een stroomdiagram ligt, zegt uw RAG-systeem: “Ik weet het niet.”

De oplossing: multimodale tekstualisatie

Om diagrammen doorzoekbaar te maken, hebben we een multimodale voorverwerkingsstap geïmplementeerd met behulp van vision-compatibele modellen (met name GPT-4o) voordat de gegevens ooit in de vectoropslag terechtkomen.

  1. OCR-extractie: Uiterst nauwkeurige optische tekenherkenning haalt tekstlabels uit de afbeelding.

  2. Generatieve ondertiteling: Het visiemodel analyseert het beeld en genereert een gedetailleerde natuurlijke-taalbeschrijving (“Een stroomdiagram dat laat zien dat proces A leidt tot proces B als de temperatuur boven de 50 graden komt”).

  3. Hybride inbedding: Deze gegenereerde beschrijving wordt ingebed en opgeslagen als metadata gekoppeld aan de originele afbeelding.

Wanneer een gebruiker nu zoekt naar ’temperatuurprocesstroom’, komt de vectorzoekopdracht overeen met de beschrijvingook al was de oorspronkelijke bron een PNG-bestand.

De vertrouwenslaag: op bewijs gebaseerde gebruikersinterface

Voor zakelijke adoptie is nauwkeurigheid slechts het halve werk. De andere helft wel verifieerbaarheid.

In een standaard RAG-interface geeft de chatbot een tekstantwoord en vermeldt een bestandsnaam. Dit dwingt de gebruiker om de pdf te downloaden en naar de pagina te zoeken om de claim te verifiëren. Bij vragen waarbij veel op het spel staat (“Is deze chemische stof ontvlambaar?”), Vertrouwen gebruikers de bot eenvoudigweg niet.

De architectuur moet visuele citatie implementeren. Omdat we tijdens de voorverwerkingsfase de link tussen het tekstfragment en de bovenliggende afbeelding hebben behouden, kan de gebruikersinterface naast het tekstantwoord het exacte diagram of de exacte tabel weergeven die is gebruikt om het antwoord te genereren.

Met dit ‘laat je werk zien’-mechanisme kunnen mensen de redenering van de AI onmiddellijk verifiëren, waardoor de vertrouwenskloof wordt overbrugd die zoveel mensen het leven kost. interne AI-projecten.

Toekomstbestendig: inheemse multimodale inbedding

Hoewel de ‘textualisatie’-methode (het omzetten van afbeeldingen naar tekstbeschrijvingen) de praktische oplossing voor vandaag is, evolueert de architectuur snel.

We zien nu al de opkomst van inheemse multimodale inbedding (zoals Cohere’s Embedd 4). Deze modellen kunnen tekst en afbeeldingen in dezelfde vectorruimte in kaart brengen zonder de tussenstap van ondertiteling. Hoewel we momenteel een meertrapspijplijn gebruiken voor maximale controle, zal de toekomst van de data-infrastructuur waarschijnlijk ‘end-to-end’-vectorisatie met zich meebrengen, waarbij de lay-out van een pagina direct wordt ingebed.

Verder, als LLM’s met lange context kosteneffectief wordt, kan de behoefte aan chunking afnemen. Mogelijk geven we binnenkort hele handleidingen door aan het contextvenster. Totdat de latentie en de kosten voor oproepen van miljoenen tokens echter aanzienlijk dalen, blijft semantische voorverwerking de economisch meest haalbare strategie voor realtime systemen.

Conclusie

Het verschil tussen een RAG-demo en een productiesysteem is de manier waarop het omgaat met de rommelige realiteit van bedrijfsgegevens.

Beschouw uw documenten niet langer als eenvoudige tekstreeksen. Als u wilt dat uw AI uw bedrijf begrijpt, moet u de structuur van uw documenten respecteren. Door semantische chunking te implementeren en de visuele gegevens in uw grafieken te ontsluiten, transformeert u uw RAG-systeem van een ‘trefwoordzoeker’ in een echte ‘kennisassistent’.

Dippu Kumar Singh is een AI-architect en data-ingenieur.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-gevestigde diepgaande inzichten over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma — en bekijk ons richtlijnen als u geïnteresseerd bent om een ​​eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in