Home Nieuws RAG-precisieafstemming kan de ophaalnauwkeurigheid stilletjes met 40% verminderen, waardoor agentische pijpleidingen in...

RAG-precisieafstemming kan de ophaalnauwkeurigheid stilletjes met 40% verminderen, waardoor agentische pijpleidingen in gevaar komen

2
0
RAG-precisieafstemming kan de ophaalnauwkeurigheid stilletjes met 40% verminderen, waardoor agentische pijpleidingen in gevaar komen

Enterprise-teams die hun RAG-inbeddingsmodellen verfijnen voor betere precisie, kunnen onbedoeld de ophaalkwaliteit verslechteren waarvan deze pijplijnen afhankelijk zijn, blijkt uit nieuw onderzoek van Redis.

In het artikel ‘Training for Compositional Sensitivity Reduces Dense Retrieval Generalization’ werd getest wat er gebeurt als teams inbeddingsmodellen trainen voor compositorische gevoeligheid. Dat is het vermogen om zinnen op te vangen die vrijwel identiek lijken maar iets anders betekenen: ‘de hond beet de man’ versus ‘de man beet de hond’, of een ontkenning die de betekenis van een uitspraak volledig omkeert. Die training doorbrak consequent de verdichte retrieval-generalisatie, hoe goed een model correct ophaalt over brede onderwerpen en domeinen waarop het niet specifiek was getraind. De prestaties daalden met 8 tot 9 procent op kleinere modellen en met 40 procent op het huidige middelgrote inbeddingsmodel dat teams actief gebruiken in de productie. De bevindingen hebben directe implicaties voor bedrijfsteams die agentische AI-pijplijnen bouwen, waarbij de kwaliteit van het ophalen bepaalt welke context in de redeneringsketen van een agent stroomt. Een ophaalfout in een pijplijn met één fase retourneert een verkeerd antwoord. Dezelfde fout in een agentische pijplijn kan stroomafwaarts een cascade van verkeerde acties veroorzaken.

Srijith Rajamohan, AI Research Leader bij Redis en een van de auteurs van het artikel, zei dat de bevinding een wijdverbreide veronderstelling in twijfel trekt over hoe op inbedding gebaseerd ophalen eigenlijk werkt.

“Er bestaat het algemene idee dat wanneer je semantisch zoeken of soortgelijke semantische gelijkenis gebruikt, we de juiste bedoeling krijgen. Dat is niet noodzakelijk waar”, vertelde Rajamohan aan VentureBeat. “Een nauwe of hoge semantische gelijkenis betekent eigenlijk niet een exacte bedoeling.”

De geometrie achter de terughaalafweging

Inbeddingsmodellen werken door een hele zin te comprimeren tot één enkel punt in een hoogdimensionale ruimte, en vervolgens op het moment van ophalen de punten te vinden die het dichtst bij een zoekopdracht liggen. Dat werkt goed voor een brede thematische matching: documenten over vergelijkbare onderwerpen komen bij elkaar terecht. Het probleem is dat twee zinnen met vrijwel identieke woorden maar tegengestelde betekenissen ook bij elkaar terechtkomen, omdat het model werkt vanuit de woordinhoud in plaats van vanuit de structuur.

Dat heeft het onderzoek gekwantificeerd. Wanneer teams een inbeddingsmodel verfijnen om structureel verschillende zinnen uit elkaar te duwen – door het te leren dat een ontkenning die de betekenis van een uitspraak omkeert niet hetzelfde is als het origineel – gebruikt het model de representatieruimte die het eerder gebruikte voor brede actuele herinnering. De twee doelstellingen strijden om dezelfde vector. Uit het onderzoek bleek ook dat de regressie niet uniform is voor alle soorten mislukkingen. Negatie- en ruimtelijke flip-fouten verbeterden meetbaar met gestructureerde training. Bindende fouten – waarbij een model verwart welke modificator op welk woord van toepassing is, zoals op welke partij een contractverplichting rust – zijn nauwelijks veranderd. Voor bedrijfsteams betekent dit dat het precisieprobleem moeilijker op te lossen is, precies in de gevallen waarin fouten de meeste gevolgen hebben.

De reden dat de meeste teams dit niet onderkennen, is dat de fijnafstemmingsstatistieken de taak meten waarvoor getraind wordt, en niet wat er gebeurt met het algemene ophalen van niet-gerelateerde onderwerpen. Een model kan een sterke verbetering laten zien bij het afwijzen van bijna-ongelukken tijdens de training, terwijl hij stilletjes terugvalt op de bredere ophaaltaak waarvoor hij is ingehuurd. De regressie komt alleen naar voren in de productie.

Rajamohan zei dat het instinct waar de meeste teams naar streven – de overstap naar een groter inbeddingsmodel – niet ingaat op de onderliggende architectuur. ‘Je kunt hier niet uit komen,’ zei hij. “Het is geen probleem dat je kunt oplossen met meer dimensies en meer parameters.”

Waarom de standaardalternatieven allemaal tekortschieten

Het natuurlijke instinct wanneer de nauwkeurigheid van het ophalen mislukt, is het toevoegen van aanvullende benaderingen. Het onderzoek testte er verschillende en ontdekte dat ze allemaal op een andere manier falen.

Hybride zoeken. Het combineren van op insluitingen gebaseerd ophalen met zoeken op trefwoorden is al een standaardpraktijk voor het dichten van gaten in de nauwkeurigheid. Maar Rajamohan zei dat zoeken op trefwoorden de foutmodus die dit onderzoek identificeert niet kan achterhalen, omdat het probleem niet het ontbreken van woorden is, maar een verkeerd gelezen structuur. “Als je een zin hebt als ‘Rome is dichterbij dan Parijs’ en een andere die zegt: ‘Parijs is dichterbij dan Rome’, en je zoekt de insluiting op gevolgd door een tekstzoekopdracht, dan zul je het verschil niet kunnen zien, ‘zei hij. “In beide zinnen komen dezelfde woorden voor.”

MaxSim-herschikking. Sommige teams voegen een tweede scorelaag toe die individuele zoekwoorden vergelijkt met individuele documentwoorden in plaats van te vertrouwen op de enkele gecomprimeerde vector. Deze aanpak, bekend als MaxSim of late interactie en gebruikt in systemen als ColBERT, verbeterde de relevantie-benchmarkscores in het onderzoek. Maar het slaagde er totaal niet in om structurele bijna-ongelukken te verwerpen en er bijna-identiteitsscores aan toe te kennen.

Het probleem is dat relevantie en identiteit verschillende doelstellingen zijn. MaxSim is geoptimaliseerd voor het eerste en blind voor het laatste. Een team dat MaxSim toevoegt en benchmarkverbetering ziet, lost mogelijk een ander probleem op dan het probleem dat zij hebben.

Cross-encoders. Deze werken door de zoekopdracht en het kandidaatdocument tegelijkertijd in het model in te voeren, waardoor elk woord met elk woord kan worden vergeleken voordat een beslissing wordt genomen. Die volledige vergelijking maakt ze accuraat – en maakt ze te duur om op productieschaal te draaien. Rajamohan zei dat zijn team ze heeft onderzocht. Ze werken in het laboratorium en onderbreken echte queryvolumes.

Contextueel geheugen. Deze systemen worden ook wel agentisch geheugen genoemd en worden steeds vaker genoemd als het pad voorbij RAG, maar Rajamohan zei dat de overstap naar dat type architectuur het structurele herstelprobleem niet oplost. Deze systemen zijn nog steeds afhankelijk van het ophalen tijdens de query, wat betekent dat dezelfde foutmodi van toepassing zijn. Het belangrijkste verschil zijn de lossere latentievereisten, en niet een precisieoplossing.

De oplossing in twee fasen die door het onderzoek werd gevalideerd

De rode draad in elke mislukte aanpak is dezelfde: één enkel scoremechanisme dat probeert zowel herinnering als precisie tegelijk aan te pakken. Het onderzoek valideerde een andere architectuur: stop met het proberen beide taken uit te voeren met één vector, en wijs elke taak toe aan een speciale fase.

Fase één: terugroepen. De eerste fase werkt precies zoals de standaard-dense retrieval tegenwoordig doet: het inbeddingsmodel comprimeert documenten in vectoren en haalt de overeenkomsten op die het dichtst bij een zoekopdracht liggen. Hier verandert niets. Het doel is om een ​​breed netwerk uit te werpen en snel een aantal sterke kandidaten terug te brengen. Snelheid en breedte zijn in dit stadium van belang, niet perfecte precisie.

Fase twee: precisie. In de tweede fase leeft de oplossing. In plaats van kandidaten te scoren met een enkel gelijkenisgetal, onderzoekt een klein, geleerd Transformer-model de vraag en elke kandidaat op tokenniveau, waarbij individuele woorden worden vergeleken met individuele woorden om structurele mismatches zoals negatie-flips of rolomkeringen te detecteren. Dit is de verificatiestap die de enkelvectorbenadering niet kan uitvoeren.

De resultaten. Tijdens de end-to-end-training presteerde de Transformer-verificator beter dan alle andere benaderingen die in het onderzoek werden getest op het gebied van structurele bijna-ongelukafwijzing. Het was de enige aanpak die op betrouwbare wijze de faalwijzen kon opvangen die het single-vectorsysteem miste.

De afweging. Het toevoegen van een verificatiefase kost latentie. De latentiekosten zijn afhankelijk van hoeveel verificatie een team uitvoert. Voor precisiegevoelige werklasten, zoals juridische of boekhoudkundige toepassingen, is volledige verificatie bij elke vraag gerechtvaardigd. Voor algemeen zoeken kan een lichtere verificatie voldoende zijn.

Het onderzoek kwam voort uit een reëel productieprobleem. Enterprise-klanten die semantische cachingsystemen gebruikten, kregen snelle maar semantisch onjuiste antwoorden terug: het ophaalsysteem behandelde gelijk klinkende zoekopdrachten als identiek, zelfs als hun betekenis verschilde. De tweefasige architectuur is de door Redis voorgestelde oplossing, waarbij integratie in het LangCache-product op de routekaart staat, maar nog niet beschikbaar is voor klanten.

Wat dit betekent voor ondernemingsteams

Het onderzoek vereist niet dat bedrijfsteams hun ophaalpijplijnen helemaal opnieuw moeten opbouwen. Maar het vraagt ​​hen wel om aannames te testen die de meeste teams nog nooit hebben onderzocht – over wat hun inbeddingsmodellen feitelijk doen, welke statistieken het vertrouwen waard zijn en waar de echte precisielacunes in de productie zitten.

Herken de afweging voordat u erop afstemt. Rajamohan zei dat de eerste praktische stap het begrijpen is dat er regressie bestaat. Hij beoordeelt elk op LLM gebaseerd zoeksysteem op drie criteria: correctheid, volledigheid en bruikbaarheid. Fouten in de correctheid vloeien rechtstreeks over in de andere twee, wat betekent dat een retrievalsysteem dat goed scoort op relevantiebenchmarks, maar faalt op structurele bijna-ongevallen, een vals gevoel geeft van productiegereedheid.

RAG is niet verouderd, maar weet wat het niet kan. Rajamohan kwam krachtig terug op de bewering dat de RAG is achterhaald. ‘Dat is een enorme simplificatie’, zei hij. “RAG is een zeer eenvoudige pijpleiding die door vrijwel iedereen met zeer weinig lift kan worden geproduceerd.” Het onderzoek pleit niet tegen RAG als architectuur. Het pleit ertegen om aan te nemen dat een eenfasige RAG-pijplijn met een nauwkeurig afgestemd inbeddingsmodel productieklaar is voor precisiegevoelige werklasten.

De oplossing is echt, maar niet gratis. Voor teams die een hogere precisie nodig hebben, zegt Rajamohan dat de tweefasige architectuur geen belemmering is voor de implementatie, maar dat het toevoegen van een verificatiefase latentie kost. ‘Het is een mitigatieprobleem’, zei hij. “Niet iets dat we daadwerkelijk kunnen oplossen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in