In de chaotische wereld van Large Language Model (LLM)-optimalisatie hebben ingenieurs de afgelopen jaren steeds esoterischere rituelen ontwikkeld om betere antwoorden te krijgen.
We hebben ‘Chain of Thought’ gezien (waarbij het model wordt gevraagd stap voor stap na te denken en vaak die ‘redeneringssporen’ aan de gebruiker laat zien), ‘Emotionele chantage’ (het model vertellen dat zijn carrière afhangt van het antwoord, of dat het zo is beschuldigd worden van seksueel wangedrag), en complexe multi-shot prompting-frameworks.
Maar uit een nieuw artikel van Google Research blijkt dat we er misschien te veel over hebben nagedacht. De onderzoekers ontdekten dat het simpelweg herhalen van de invoerquery (letterlijk kopiëren en plakken van de prompt zodat deze twee keer verschijnt) de prestaties van grote modellen, waaronder Gemini, GPT-4o, Claude en DeepSeek, consequent verbetert.
Het papier, getiteld “Snelle herhaling verbetert niet-redenerende LLM’sdie vorige maand net voor de feestdagen werd vrijgegeven, presenteert een bevinding die bijna verdacht eenvoudig is: voor taken waarvoor geen complexe redeneerstappen nodig zijn, levert het tweemaal vermelden van de prompt aanzienlijk betere resultaten op dan het één keer zeggen.
Sterker nog, vanwege de manier waarop de transformatorarchitectuur werkt, levert deze “ene rare truc” vrijwel geen straf op in termen van opwekkingssnelheid.
De causale blinde vlek
Om te begrijpen waarom het herhalen van een vraag een supercomputer slimmer maakt, moet je kijken naar de architectonische beperkingen van het standaard Transformer-model.
De meeste moderne LLM’s zijn getraind als ‘causale’ taalmodellen. Dit betekent dat ze tekst strikt van links naar rechts verwerken. Wanneer het model het vijfde token in uw zin verwerkt, kan het de tokens 1 tot en met 4 “bijwonen” (let op), maar het heeft geen kennis van token 6, omdat het nog niet is gebeurd.
Dit creëert een fundamentele beperking in de manier waarop modellen gebruikersquery’s begrijpen. Zoals de auteurs opmerken, is de volgorde van de informatie enorm belangrijk.
Een query die is opgemaakt als levert vaak andere resultaten op dan omdat in het laatste geval het model de vraag leest voordat het de context kent waarop het deze moet toepassen.
Snelle herhaling hackt deze beperking door een invoer van te transformeren naar binnen .
Tegen de tijd dat het model begint met het verwerken van de seconde iteratie van de query, heeft deze de eerste iteratie al “gelezen”. Hierdoor kunnen de tokens in de tweede kopie elk afzonderlijk token in de eerste kopie verzorgen.
In feite geniet de tweede herhaling een vorm van bidirectionele aandacht: hij kan ’terugkijken’ naar de hele vraag om onduidelijkheden op te lossen of specifieke details op te halen die mogelijk in één keer gemist zijn.
De benchmarks: 47 overwinningen, 0 verliezen
De onderzoekers, Yaniv Leviathan, Matan Kalman en Yossi Matias, testten deze hypothese in een reeks van zeven populaire benchmarks, waaronder ARC, OpenBookOA, GSM8K en MMLU-Pro. Ze evalueerden zeven verschillende modellen, variërend van lichtgewicht modellen zoals Gemini 2.0 Flash Lite en GPT-4o-mini tot zwaargewichten zoals Claude 3.7 Sonnet en DeepSeek V3. De resultaten waren statistisch gezien grimmig. Bij het vragen van modellen niet om expliciete redenering te gebruiken (dat wil zeggen, alleen maar een direct antwoord geven), won prompte herhaling 47 van de 70 onderlinge tests ten opzichte van de basislijn, zonder verliezen. De winst was vooral dramatisch bij taken waarvoor nauwkeurig ophalen van een prompt nodig was. Het team ontwierp een aangepaste “NameIndex”-benchmark, waarbij het model een lijst met 50 namen krijgt en wordt gevraagd de 25e te identificeren.
Deze enorme sprong illustreert perfect de ‘causale blinde vlek’. In één keer kan het model de telling uit het oog verliezen tegen de tijd dat het de 25e naam bereikt. Bij de herhaalde doorgang heeft het model feitelijk de volledige lijst in zijn “werkgeheugen” voordat het probeert de ophaaltaak op te lossen.
De “gratis lunch” van latentie
Normaal gesproken verhoogt het toevoegen van tekst aan een prompt de kosten en de latentie. Als je de invoer verdubbelt, verdubbel je dan toch ook de wachttijd? Verrassend genoeg niet. Het artikel laat zien dat prompte herhaling in wezen ‘gratis’ is wat betreft de door de gebruiker waargenomen latentie. LLM-verwerking is verdeeld in twee fasen:
-
Voorvullen: Het model verwerkt de invoerprompt. Dit is zeer parallelleerbaar; de GPU kan de hele promptmatrix tegelijkertijd verwerken.
-
Generatie (decodering): Het model genereert het antwoord per token. Dit is serieel en traag.
Snelle herhaling vergroot alleen maar het werk in de voorvullen fase. Omdat moderne hardware zo efficiënt omgaat met het vooraf invullen, merkt de gebruiker het verschil nauwelijks. De onderzoekers ontdekten dat het herhalen van de prompt dat deed niet de lengte van het gegenereerde antwoord werd vergroot, noch de latentie van de “time to first token” voor de meeste modellen. De enige uitzonderingen waren de modellen van Anthropic (Claude Haiku en Sonnet) op extreem lange verzoeken, waarbij de prefill-fase uiteindelijk op een knelpunt stuitte. Maar voor de overgrote meerderheid van de gebruiksscenario’s verbetert de techniek de nauwkeurigheid zonder de chatervaring te vertragen.
Redeneren versus herhaling
Er is een voorbehoud: deze techniek is voornamelijk bedoeld voor ‘niet-redenerende’ taken: scenario’s waarin u een direct antwoord wilt in plaats van een stapsgewijze afleiding.
Toen de onderzoekers snelle herhaling testten in combinatie met “Chain of Thought” (waarbij het model werd gevraagd “stap voor stap na te denken”), verdwenen de winsten grotendeels en lieten neutrale tot licht positieve resultaten zien (5 overwinningen, 1 verlies, 22 gelijkspel).
De auteurs stellen dat redeneermodellen van nature zelf een versie van herhaling uitvoeren. Wanneer een model ‘denkt’, herhaalt het vaak het uitgangspunt van de vraag in de gegenereerde output voordat het wordt opgelost. Daarom wordt het expliciet herhalen van de prompt in de invoer overbodig.
Voor toepassingen waarbij u een snel, direct antwoord nodig heeft zonder de breedsprakigheid (en de kosten) van een lang redeneertraject, biedt prompte herhaling echter een krachtig alternatief.
Strategische implementatie voor de onderneming
Voor leiderschap in ondernemingen vertegenwoordigt dit onderzoek de zeldzaamste dingen in de AI-ontwikkeling: een ‘gratis’ optimalisatie. Maar kapitalisatie vereist nuance; dit is geen instelling om blindelings door een hele organisatie heen te schakelen, maar eerder een tactische aanpassing die zich uitstrekt over techniek, orkestratie en beveiliging.
Voor technische leads die de eeuwige driehoek van snelheid, kwaliteit en kosten in evenwicht houden, biedt snelle herhaling een manier om boven uw gewichtsklasse uit te stijgen. Uit de gegevens blijkt dat kleinere, snellere modellen, zoals Gemini 2.0 Flash Lite, een vrijwel perfecte ophaalnauwkeurigheid kunnen bereiken (van 21,33% naar 97,33%) door simpelweg de invoer twee keer te verwerken.
Dit verandert de berekening voor modelselectie: voordat ze upgraden naar een groter, duurder model om een knelpunt in de nauwkeurigheid op te lossen, moeten ingenieurs eerst testen of eenvoudige herhaling hun huidige “Lite” -modellen in staat stelt de kloof te dichten. Het is een potentiële strategie om de snelheid en kostenvoordelen van lichtgewicht infrastructuur te behouden zonder dat dit ten koste gaat van de prestaties bij extractie- en ophaaltaken.
Deze logica verschuift op natuurlijke wijze de last naar de orkestratielaag. Voor degenen die de middleware en API-gateways beheren die AI-applicaties aan elkaar lijmen, zou prompte herhaling waarschijnlijk een standaard, onzichtbaar onderdeel van de pijplijnlogica moeten worden in plaats van een gebruikersgedrag.
Omdat de techniek echter neutraal is voor taken die veel redeneren, maar zeer effectief is voor directe antwoorden, vereist deze voorwaardelijke toepassing. Een slim orkestratieharnas zou automatisch verzoeken identificeren die naar niet-redenerende eindpunten worden gerouteerd (zoals entiteitsextractie, classificatie of eenvoudige vraag-en-antwoordsessies) en de prompt verdubbelen voordat deze aan het model wordt doorgegeven. Dit optimaliseert de prestaties op infrastructuurniveau en levert betere resultaten zonder dat actie van eindgebruikers vereist is of het opwekkingsbudget wordt verhoogd.
Ten slotte introduceert deze verhoogde aandacht een nieuwe variabele voor beveiligingsteams.
Als het herhalen van een prompt de intentie van een gebruiker ten opzichte van het model verduidelijkt, ligt het voor de hand dat kwaadwillige bedoelingen ook kunnen worden verduidelijkt. Beveiligingsdirecteuren zullen hun red-teaming-protocollen moeten bijwerken om ‘herhaalde injectie’-aanvallen te testen, waarbij ze moeten verifiëren of het herhalen van een jailbreak-commando (bijvoorbeeld ‘Negeer eerdere instructies’) ervoor zorgt dat het model de inbreuk effectiever ‘bijwoont’. Omgekeerd biedt dit mechanisme een nieuw verdedigingsinstrument: het herhalen van systeemprompts.
Het tweemaal vermelden van veiligheidsleuningen aan het begin van het contextvenster zou het model kunnen dwingen strenger aan veiligheidsbeperkingen te voldoen, wat als een goedkope versterking voor robuuste beveiligingsoperaties zou kunnen fungeren.
Waarom dit ertoe doet
Dit onderzoek benadrukt een cruciaal inzicht voor ontwikkelaars die voortbouwen op LLM’s: onze huidige modellen worden nog steeds diep beperkt door hun unidirectionele aard. Terwijl we wachten op nieuwe architecturen die causale blindheid zouden kunnen oplossen, bieden ruwe maar effectieve oplossingen zoals snelle herhaling onmiddellijke waarde. De auteurs suggereren dat dit een standaardgedrag voor toekomstige systemen zou kunnen worden.
We zouden binnenkort inferentie-engines kunnen zien die stilletjes onze aanwijzingen op de achtergrond verdubbelen voordat ze naar het model worden gestuurd, of ‘Reasoning’-modellen die zijn getraind om deze herhalingsstrategie te internaliseren om efficiënter te zijn. Als je op dit moment moeite hebt om een model complexe instructies te laten volgen of specifieke details uit een lang document te halen, is de oplossing misschien geen betere prompt. Misschien moet je het gewoon nog een keer zeggen.



