Home Nieuws Frontier AI-modellen verwijderen niet alleen de inhoud van documenten; ze herschrijven deze,...

Frontier AI-modellen verwijderen niet alleen de inhoud van documenten; ze herschrijven deze, en de fouten zijn vrijwel onmogelijk op te sporen

3
0
Frontier AI-modellen verwijderen niet alleen de inhoud van documenten; ze herschrijven deze, en de fouten zijn vrijwel onmogelijk op te sporen

Naarmate grote taalmodellen capabeler worden, komen gebruikers in de verleiding om kennistaken te delegeren waarbij modellen namens hen documenten verwerken en de uiteindelijke resultaten leveren. Maar in hoeverre kunt u erop vertrouwen dat het model trouw blijft aan de inhoud van uw documenten wanneer het deze in meerdere rondes moet herhalen?

A nieuwe studie door onderzoekers van Microsoft blijkt dat grote taalmodellen stilletjes documenten waar ze aan werken corrumperen door fouten te introduceren. De onderzoekers ontwikkelden een benchmark die meerstaps autonome workflows in 52 professionele domeinen simuleert, met behulp van een methode die automatisch meet hoeveel inhoud in de loop van de tijd verslechtert.

Uit hun bevindingen blijkt dat zelfs de meest geavanceerde modellen aan het einde van deze workflows gemiddeld 25% van de documentinhoud corrumperen. En door modellen te voorzien van agentische hulpmiddelen of realistische afleiderdocumenten worden hun prestaties zelfs slechter.

Dit dient als waarschuwing dat, hoewel er steeds meer druk is om kenniswerk te automatiseren, de huidige taalmodellen niet volledig betrouwbaar zijn voor deze taken.

De mechanismen van gedelegeerd werk

Het Microsoft-onderzoek richt zich op ‘gedelegeerd werk’, een opkomend paradigma waarbij gebruikers LLM’s namens hen kennistaken laten voltooien door documenten te analyseren en aan te passen.

Een prominent voorbeeld van dit paradigma is Vibe-coderingwaarbij een gebruiker softwareontwikkeling en codebewerking delegeert aan een AI. Maar gedelegeerde workflows reiken veel verder dan programmeren in andere domeinen. In de boekhouding kan een gebruiker bijvoorbeeld een compact grootboek aanleveren en het model opdracht geven het document in afzonderlijke bestanden op te splitsen, geordend op specifieke onkostencategorieën.

Omdat gebruikers mogelijk niet de tijd of de gespecialiseerde expertise hebben om elke wijziging die de AI doorvoert handmatig te beoordelen, hangt delegatie vaak af van vertrouwen. Gebruikers verwachten dat het model taken getrouw zal voltooien zonder ongecontroleerde fouten, ongeoorloofde verwijderingen of hallucinaties in de documenten te introduceren.

Om te meten in hoeverre AI-systemen kunnen worden vertrouwd in uitgebreide, iteratief gedelegeerde workflows, ontwikkelden de onderzoekers de DELEGATE-52-benchmark. De benchmark is samengesteld uit 310 werkomgevingen verspreid over 52 verschillende professionele domeinen, waaronder financiële boekhouding, software-engineering, kristallografie en muzieknotatie.

Voorbeeld van DELEGATE-52-taak (bron: arXiv)

Elke werkomgeving is afhankelijk van echte zaadtekstdocumenten, variërend van 2.000 tot 5.000 tokens. Naast het startdocument omvatten de omgevingen vijf tot tien complexe, niet-triviale bewerkingstaken.

Het beoordelen van een complex bewerkingsproces dat uit meerdere stappen bestaat, vereist doorgaans dure menselijke beoordeling. DELEGATE-52 omzeilt dit door gebruik te maken van een ‘round-trip relay’-simulatiemethode die antwoorden evalueert zonder dat er door mensen geannoteerde referentieoplossingen nodig zijn. De aanpak is geïnspireerd op de terugvertalingstechniek die wordt gebruikt bij de evaluatie van automatische vertalingen, waarbij een AI-model wordt verteld een document van de ene taal naar de andere te vertalen en terug om te zien hoe perfect het de originele versie reproduceert.

Dienovereenkomstig is elke bewerkingstaak in DELEGATE-52 ontworpen om volledig omkeerbaar te zijn, waarbij een voorwaartse instructie wordt gekoppeld aan de precieze inverse ervan. Een instructie om het grootboek op te splitsen in afzonderlijke bestanden per onkostencategorie wordt bijvoorbeeld gecombineerd met een instructie om alle categoriebestanden weer samen te voegen in één grootboek.

In commentaar aan VentureBeat verduidelijkte Philippe Laban, senior onderzoeker bij Microsoft Research en co-auteur van het artikel, dat dit niet simpelweg een test is of een AI ‘ongedaan kan maken’. Omdat menselijke werknemers niet kunnen worden gedwongen een taak die ze zojuist hebben uitgevoerd onmiddellijk te ‘vergeten’, is deze round-trip-evaluatie bij uitstek geschikt voor AI. Door een nieuwe conversatiesessie te starten, dwingen de onderzoekers het model om de omgekeerde taak volledig zelfstandig uit te voeren.

De modellen in hun experimenten “weten niet of een taak een voorwaartse of achterwaartse stap is en zijn zich niet bewust van het algehele experimentontwerp”, legt Laban uit. “Ze proberen elke taak eenvoudigweg zo grondig mogelijk uit bij elke stap.”

DELEGATE-52 retourrelais

Voorbeeld van een round-trip relay-taak (bron: arXiv)

Deze roundtrip-taken worden samengevoegd tot een continu relais om workflows met een lange horizon te simuleren die 20 opeenvolgende interacties bestrijken. Om de omgeving realistischer te maken, introduceert de benchmark afleidingsbestanden in de context van elke taak. Deze bevatten 8.000 tot 12.000 tokens van thematisch gerelateerde maar volledig irrelevante documenten. Afleiders meten of de AI de focus kan behouden of dat hij in de war raakt en de verkeerde gegevens binnenhaalt.

Frontiermodellen testen in de estafette

Om te begrijpen hoe verschillende architecturen en schalen omgaan met gedelegeerd werk, testten de onderzoekers 19 verschillende taalmodellen van OpenAI, Anthropic, Google, Mistral, xAI en Moonshot. Het hoofdexperiment onderwierp deze modellen aan een simulatie van twintig opeenvolgende bewerkingsinteracties.

In alle modellen vertoonden de documenten aan het einde van de simulatie een gemiddelde verslechtering van 50%. Zelfs de beste grensmodellen in het experiment, met name Gemini 3.1 Pro, Claude 4.6 Opus en GPT 5.4, beschadigden gemiddeld 25% van de documentinhoud.

Van de 52 professionele domeinen was Python het enige waar de meeste modellen de status ‘ready’ behaalden met een score van 98% of hoger. Modellen blinken uit in programmatische taken, maar hebben moeite met natuurlijke taal en nichedomeinen zoals fictie, inkomstenoverzichten of recepten. Het algehele topmodel, Gemini 3.1 Pro, werd in slechts 11 van de 52 domeinen gereed geacht voor gedelegeerd werk.

afgevaardigde-52 resultaten

Alle modellen worstelen met delegatietaken (bron: arXiv)

Interessant genoeg werd de corruptie niet veroorzaakt door de dood door duizend bezuinigingen, waarbij de modellen langzaam maar zeker kleine foutjes accumuleren. In plaats daarvan wordt ongeveer 80% van de totale degradatie veroorzaakt door schaarse maar enorme kritieke fouten, dit zijn afzonderlijke interacties waarbij een model plotseling minstens 10% van de inhoud van het document laat vallen. De grensmodellen vermijden kleine fouten niet noodzakelijkerwijs beter. Ze stellen deze catastrofale mislukkingen eenvoudigweg uit naar latere rondes.

Een andere belangrijke observatie is dat wanneer zwakkere modellen falen, hun degradatie voornamelijk voortkomt uit het verwijderen van inhoud. Wanneer grensmodellen echter falen, corrumperen ze actief de bestaande inhoud. De tekst is er nog steeds, maar is op subtiele wijze vervormd of gehallucineerd, waardoor het voor een menselijke opzichter veel moeilijker wordt om de fout op te sporen.

Interessant is dat het geven van een agentisch harnas met generieke tools voor code-uitvoering en lees-/schrijftoegang tot bestanden hun prestaties feitelijk verslechterde, wat leidde tot gemiddeld 6% meer degradatie. Laban legde uit dat het falen ligt in het vertrouwen op generieke tools in plaats van op domeinspecifieke tools.

“Modellen missen de mogelijkheid om direct effectieve programma’s te schrijven die bestanden in verschillende domeinen zonder fouten kunnen manipuleren”, merkte hij op. “Als ze iets niet programmatisch kunnen doen, nemen ze hun toevlucht tot het lezen en herschrijven van hele bestanden, wat minder efficiënt en foutgevoeliger is.” De oplossing voor ontwikkelaars is het bouwen van tools met een strak bereik (zoals specifieke functies om gegevens binnen .ledger-bestanden te berekenen of te verplaatsen) om agenten op het goede spoor te houden.

De degradatie neemt ook toe naarmate documenten groter worden of naarmate er meer afleidende bestanden aan de werkruimte worden toegevoegd. Voor bedrijfsteams die zwaar investeren in Retrieval-Augmented Generation (RAG), dienen deze afleidende documenten als een directe waarschuwing over de kosten die een rommelige context met zich meebrengt. Hoewel een luidruchtig contextvenster na slechts twee interacties een prestatiedaling van minimaal 1% kan veroorzaken, leidt deze degradatie tot een enorme daling van 2-8% tijdens een lange simulatie.

“Voor de ophaalgemeenschap: RAG-pijplijnen moeten worden geëvalueerd op basis van meerstapsworkflows, niet alleen op het gebied van ophaalbenchmarks met één draai”, aldus Laban. “Single-turn metingen onderschatten systematisch de schade van onnauwkeurig ophalen.”

Realitycheck voor de autonome onderneming

De bevindingen uit de DELEGATE-52 benchmark bieden een kritische realiteitscheck voor de huidige hype rond volledig autonome AI-agenten.

Het ontwerp van de benchmark impliceert ook een praktische beperking: omdat modellen een aantal stappen schoon kunnen houden voordat ze plotseling catastrofaal falen, is incrementele menselijke beoordeling noodzakelijk – en geen enkele laatste controle. Laban beveelt aan om AI-applicaties te bouwen rond korte, transparante taken in plaats van complexe agenten met een lange horizon. Hierdoor blijft de actieimplicatie behouden zonder dat de schrijver het recept aflevert.

Voor organisaties die vandaag de dag autonome agenten veilig willen inzetten, biedt de DELEGATE-52-methodologie een praktische blauwdruk voor het testen van interne datapijplijnen. Laban legde uit dat “… een bedrijfsteam dat dit raamwerk wil adopteren drie componenten moet bouwen: (a) een reeks omkeerbare bewerkingstaken die representatief zijn voor hun workflows, (b) een parser die hun domeindocumenten omzet in een gestructureerde representatie, en (c) een gelijkenisfunctie die twee ontlede representaties vergelijkt. ” Teams hoeven niet eens helemaal opnieuw parsers te bouwen. Het Microsoft-onderzoeksteam heeft met succes bestaande parsingbibliotheken hergebruikt voor 30 van de 52 geteste domeinen.

Laban is optimistisch over het tempo van de verbetering. “Vooruitgang is reëel en snel. Als we alleen al naar de GPT-familie kijken, gaan modellen in 18 maanden van een score van minder dan 20% naar ongeveer 70%”, aldus Laban. “Als dat traject zich voortzet, zullen modellen binnenkort verzadigde scores kunnen behalen op DELEGATE-52.”

Laban waarschuwde echter dat DELEGATE-52 met opzet klein is vergeleken met grote bedrijfsomgevingen. Ook al beheersen basismodellen deze benchmark onvermijdelijk, de eindeloze lange staart van unieke bedrijfsgegevens en workflows betekent dat organisaties altijd zullen moeten investeren in aangepaste, domeinspecifieke tools om hun autonome agenten betrouwbaar te houden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in