Bij het bouwen van LLM-applicaties moeten ondernemingen vaak zeer lange systeemprompts maken om het gedrag van het model voor hun applicaties aan te passen. Deze aanwijzingen bevatten bedrijfskennis, voorkeuren en toepassingsspecifieke instructies. Op bedrijfsschaal kunnen deze contexten de inferentielatentie tot voorbij aanvaardbare drempels brengen en de kosten per query aanzienlijk verhogen.
Contextdistillatie binnen het beleid (OPCD), een nieuw trainingsframework voorgesteld door onderzoekers van Microsoft, helpt de kennis en voorkeuren van applicaties rechtstreeks in een model te verwerken. OPCD gebruikt de eigen reacties van het model tijdens de training, waardoor enkele valkuilen van andere trainingstechnieken worden vermeden. Dit verbetert de mogelijkheden van modellen voor op maat gemaakte toepassingen, terwijl hun algemene mogelijkheden behouden blijven.
Waarom lange systeemprompts een probleem worden
Contextueel leren stelt ontwikkelaars in staat het gedrag van een model tijdens de inferentietijd bij te werken zonder de onderliggende parameters te wijzigen. Het bijwerken van parameters is doorgaans een langzaam en duur proces. Kennis in de context is echter van voorbijgaande aard. Deze kennis brengt geen verschillende gesprekken met het model met zich mee, wat betekent dat u het model elke keer exact dezelfde enorme set instructies of documenten moet invoeren. Voor een bedrijfstoepassing kan dit betekenen dat u herhaaldelijk bedrijfsbeleid, klantentickets of uitgebreide technische handleidingen in de prompt moet plakken. Dit vertraagt uiteindelijk het model, drijft de kosten op en kan het systeem in verwarring brengen.
“Bedrijven gebruiken vaak lange systeemprompts om veiligheidsbeperkingen af te dwingen (bijvoorbeeld detectie van haatzaaiende uitlatingen) of om domeinspecifieke expertise te bieden (bijvoorbeeld medische kennis)”, zegt Tianzhu Ye, co-auteur van het artikel en onderzoeker bij Microsoft Research Asia, in commentaar aan VentureBeat. “Langdurige prompts verhogen echter aanzienlijk de rekenoverhead en de latentie bij het infereren.”
Het belangrijkste idee achter contextdistillatie is het trainen van een model om de informatie die u herhaaldelijk in de context invoegt, te internaliseren. Zoals andere destillatie techniekenhet volgt een leraar-leerlingparadigma. De leraar is een AI-model dat de enorme, gedetailleerde prompt ontvangt. Omdat het alle instructies en referentiedocumenten bevat, genereert het zeer op maat gemaakte antwoorden. De student is een model dat wordt getraind en dat alleen de hoofdvraag ziet en geen toegang heeft tot de volledige context. Het doel is simpelweg om de reacties van de leraar te observeren en zijn gedrag te leren nabootsen.
Door dit trainingsproces comprimeert het leerlingmodel op effectieve wijze de complexe instructies van de opdracht van de leraar rechtstreeks in de parameters ervan. Voor een onderneming vindt de primaire waarde plaats op het moment van de inferentie. Omdat het studentenmodel de context heeft geïnternaliseerd, kunt u deze in uw applicatie implementeren zonder dat u de lange instructies opnieuw hoeft te plakken. Dit maakt het model aanzienlijk sneller en met veel minder rekenkundige overhead.
De klassieke contextdestillatie is echter afhankelijk van een gebrekkige trainingsmethode die ‘off-policy training’ wordt genoemd, waarbij het model wordt getraind op vaste datasets die vóór het trainingsproces zijn verzameld. Dit is op verschillende manieren problematisch. Tijdens de training wordt de leerling alleen blootgesteld aan gegevens over de grondwaarheid en door de leraar gegenereerde antwoorden, waardoor er ontstaat wat Ye ‘blootstellingsbias’ noemt. Tijdens de productie moet het model zijn eigen tokenreeksen bedenken om die antwoorden te bereiken. Omdat hij tijdens de training nooit heeft geoefend met het nemen van zijn eigen beslissingen of het herstellen van zijn eigen fouten, kan hij gemakkelijk ontsporen als hij zelfstandig opereert. Het is alsof je een student video’s laat zien van een professionele chauffeur en verwacht dat hij zonder vallen en opstaan leert autorijden.
Een ander probleem is de “vooruit”. Kullback-Leibler (KL) divergentie“De minimalisatiemaatstaf die wordt gebruikt om het model te trainen. Bij deze methode wordt het model beoordeeld op basis van de mate waarin de antwoorden overeenkomen met die van de leraar, wat ‘mode-covering’-gedrag aanmoedigt, zegt Ye. Het leerlingmodel is vaak kleiner of mist de rijke context die de leraar had, wat betekent dat het eenvoudigweg het vermogen mist om de complexe redenering van de leraar perfect te repliceren. Omdat de leerling gedwongen wordt om toch al die mogelijkheden te proberen te dekken, worden de onderliggende gissingen te breed en ongericht.
In toepassingen in de echte wereld kan dit leiden tot hallucinaties, waarbij de AI in de war raakt en zelfverzekerd dingen verzint, omdat hij een diepgaande kennis probeert na te bootsen die hij in werkelijkheid niet bezit. Het betekent ook dat het model niet goed kan generaliseren naar nieuwe taken.
Hoe OPCD het leraar-leerlingprobleem oplost
Om de kritieke problemen met de oude leraar-leerling-dynamiek op te lossen, introduceerden de Microsoft-onderzoekers On-Policy Context Distillation (OPCD). De belangrijkste verschuiving in OPCD is dat het studentenmodel leert van zijn eigen generatietrajecten, in tegenstelling tot een statische dataset (daarom wordt het ‘on-policy’ genoemd). In plaats van passief een dataset van de perfecte resultaten van de leraar te bestuderen, krijgt de leerling een taak zonder de enorme instructieprompt te zien en moet hij geheel zelf een antwoord genereren.
Terwijl de leerling zijn antwoord genereert, fungeert de leraar als live instructeur. De docent heeft toegang tot de volledige, aangepaste prompt en evalueert de resultaten van de leerling. Bij elke stap in de generatie van de leerling vergelijkt het systeem de tokenverdeling van de leerling met wat de contextbewuste leraar zou doen.
OPCD gebruikt “omgekeerde KL-divergentie” om de leerling te beoordelen. “Door de omgekeerde KL-divergentie te minimaliseren, bevordert het ‘mode-zoekend’ gedrag. Het richt zich op regio’s met een hoge waarschijnlijkheid in de verspreiding van de student, “zei Ye. “Het onderdrukt tokens die de student onwaarschijnlijk acht, zelfs als de overtuiging van de leraar deze een hoge waarschijnlijkheid toekent. Deze afstemming helpt de student zijn eigen fouten te corrigeren en de brede, hallucinerende distributies van standaarddestillatie te vermijden.”
Omdat het studentenmodel actief oefent met het nemen van zijn eigen beslissingen en tijdens de training leert zijn eigen fouten te corrigeren, gedraagt het zich betrouwbaarder wanneer het in een live applicatie wordt ingezet. Het slaat met succes complexe bedrijfsregels, veiligheidsbeperkingen of gespecialiseerde kennis rechtstreeks in het permanente geheugen op.
Wat OPCD levert: de benchmarkresultaten
De onderzoekers testten OPCD op twee belangrijke gebieden: distillatie van ervaringskennis en systeempromptdistillatie. Voor de destillatie van ervaringskennis wilden de onderzoekers zien of een LLM kon leren van zijn eigen successen uit het verleden en die lessen permanent kon overnemen. Ze testten dit op modellen van verschillende groottes, met behulp van wiskundige redeneerproblemen.
Ten eerste loste het model problemen op en werd gevraagd algemene regels op te schrijven die het van zijn successen had geleerd. Vervolgens hebben ze met behulp van OPCD deze geschreven lessen rechtstreeks in de parameters van het model verwerkt. De resultaten toonden aan dat de modellen dramatisch verbeterden zonder dat de geleerde ervaring meer in de prompts geplakt hoefde te worden. Bij complexe wiskundige problemen verbeterde een model met 8 miljard parameters van een basislijn van 75,0% naar 80,9%. In het navigatiespel Frozen Lake had een klein parametermodel van 1,7 miljard aanvankelijk bijvoorbeeld een succespercentage van 6,3%. Nadat OPCD de geleerde ervaring had ingebakken, steeg de nauwkeurigheid naar 38,3%.
De tweede reeks experimenten bestond uit lange systeemprompts. Bedrijven gebruiken vaak enorme systeemprompts om strikte gedragsrichtlijnen af te dwingen, zoals het handhaven van een professionele toon, het garanderen van medische nauwkeurigheid of het filteren van giftige taal. De onderzoekers testten of OPCD deze dichte gedragsregels permanent in de modellen kon inbouwen, zodat ze niet bij elke gebruikersquery hoefden te worden meegestuurd. Uit hun experimenten blijkt dat OPCD deze complexe regels met succes heeft geïnternaliseerd en de prestaties enorm heeft verbeterd. Bij het testen van een Llama-model met 3 miljard parameters op het gebied van veiligheids- en toxiciteitsclassificatie scoorde het basismodel 30,7%. Nadat OPCD was gebruikt om de veiligheidsprompt te internaliseren, steeg de nauwkeurigheid tot 83,1%. Bij het beantwoorden van medische vragen verbeterde hetzelfde model van 59,4% naar 76,3%.
Een van de belangrijkste uitdagingen bij het verfijnen van modellen is catastrofaal vergetenwaarbij het model te veel gefocust raakt op de verfijningstaak en slechter op algemene taken. De onderzoekers volgden de prestaties buiten de distributie om deze tunnelvisie te testen. Toen ze strikte veiligheidsregels in een model destilleerden, testten ze onmiddellijk het vermogen ervan om niet-gerelateerde medische vragen te beantwoorden. OPCD handhaafde met succes de algemene medische kennis van het model en presteerde ongeveer 4 procentpunten beter dan de oude methoden buiten het beleid. Het specialiseerde zich zonder zijn bredere intelligentie te verliezen.
Waar OPCD past – en waar niet
Hoewel OPCD een krachtig hulpmiddel is voor het internaliseren van statische kennis en complexe regels, vervangt het niet alle externe contextmethoden. “RAG is beter als de vereiste informatie zeer dynamisch is of als er sprake is van een enorme, regelmatig bijgewerkte externe database die niet kan worden gecomprimeerd tot modelgewichten”, zegt Ye.
Voor bedrijfsteams die hun pijplijnen evalueren, vereist de adoptie van OPCD geen revisie van bestaande systemen of investeringen in gespecialiseerde hardware. “OPCD kan met heel weinig wrijving in bestaande workflows worden geïntegreerd”, zegt Ye. “Elk team dat al standaard RLVR-pijplijnen (Reinforcement Learning from Verifiable Rewards) gebruikt, kan OPCD adopteren zonder grote architectonische veranderingen.”
In de praktijk fungeert het studentenmodel als het beleidsmodel dat de implementatie uitvoert, terwijl het bevroren lerarenmodel als referentie dient en logits levert. De hardwarevereisten zijn zeer toegankelijk. Volgens Ye kunnen bedrijfsteams de experimenten van de onderzoekers reproduceren met behulp van ongeveer acht A100 GPU’s.
De gegevensvereisten zijn eveneens licht. Voor de distillatie van ervaringskennis hebben ontwikkelaars slechts ongeveer 30 zaadvoorbeelden nodig om oplossingssporen te genereren. Omdat de techniek wordt toegepast op voorheen niet-geoptimaliseerde omgevingen, levert zelfs een kleine hoeveelheid gegevens het grootste deel van de prestatieverbetering op. Voor de distillatie van systeemprompts zijn bestaande geoptimaliseerde prompts en standaard taakgegevenssets voldoende.
De onderzoekers bouwden hun eigen implementatie voort kwijteen open-source RLVR-codebase, die bewijst dat de techniek perfect past binnen conventionele raamwerken voor versterkend leren. Ze zijn van plan hun implementatie na interne beoordelingen vrij te geven als open source.
Het zelfverbeteringsmodel: wat daarna komt
Vooruitkijkend maakt OPCD de weg vrij voor modellen die zichzelf daadwerkelijk verbeteren en die zich voortdurend aanpassen aan op maat gemaakte bedrijfsomgevingen. Eenmaal geïmplementeerd kan een model lessen trekken uit interacties in de echte wereld en OPCD gebruiken om deze kenmerken geleidelijk te internaliseren zonder dat handmatige supervisie of gegevensannotatie door modeltrainers nodig is.
“Dit vertegenwoordigt een fundamentele paradigmaverschuiving in modelverbetering: de kernverbeteringen aan het model zouden zich verplaatsen van trainingstijd naar testtijd”, zei Ye. “Het model gebruiken – en het ervaring laten opdoen – zou de voornaamste motor van de vooruitgang ervan worden.”



