Om samenhangende afbeeldingen of video’s te maken, vertrouwden generatieve AI-diffusiemodellen zoals Stable Diffusion of FLUX doorgaans op externe ‘leraren’ (bevroren encoders zoals CLIP of DINOv2) om het semantische begrip te bieden dat ze niet op eigen kracht konden leren.
Maar deze afhankelijkheid heeft een prijskaartje: een ‘knelpunt’ waarbij het opschalen van het model niet langer betere resultaten oplevert omdat de externe leraar zijn limiet heeft bereikt.
Vandaag de Duitse AI-startup Dat heeft Black Forest Labs (maker van de FLUX-serie AI-beeldmodellen) bekendgemaakt een potentieel einde aan dit tijdperk van academisch lenen het vrijkomen van Self-Floween zelfbeheerd raamwerk voor flowmatching waarmee modellen tegelijkertijd representatie en generatie kunnen leren.
Door een nieuw Dual-Timestep Scheduling-mechanisme te integreren heeft Black Forest Labs aangetoond dat één enkel model state-of-the-art resultaten kan behalen op het gebied van afbeeldingen, video en audio zonder enig extern toezicht.
De technologie: de ‘semantische kloof’ doorbreken
Het fundamentele probleem met traditionele generatieve training is dat het een taak is om de ruis te verminderen. Het model krijgt ruis te zien en wordt gevraagd een afbeelding te vinden; het heeft heel weinig prikkels om te begrijpen wat het beeld is, alleen hoe het eruit ziet.
Om dit op te lossen hebben onderzoekers eerder generatieve kenmerken ‘uitgelijnd’ met externe discriminerende modellen. Black Forest Labs stelt echter dat dit fundamenteel gebrekkig is: deze externe modellen werken vaak met verkeerd op elkaar afgestemde doelstellingen en slagen er niet in om te generaliseren over verschillende modaliteiten zoals audio of robotica.
De nieuwe techniek van The Labs, Self-Flow, introduceert een ‘informatie-asymmetrie’ om dit op te lossen. Met behulp van een techniek genaamd Dual-Timestep Scheduling past het systeem verschillende ruisniveaus toe op verschillende delen van de invoer. De leerling ontvangt een zwaar beschadigde versie van de gegevens, terwijl de leraar (een Exponential Moving Average (EMA)-versie van het model zelf) een “schonere” versie van dezelfde gegevens ziet.
De leerling wordt dan niet alleen belast met het genereren van de uiteindelijke output, maar ook met het voorspellen van wat zijn ‘schonere’ zelf ziet – een proces van zelfdistillatie waarbij de leraar zich op laag 20 bevindt en de leerling op laag 8. Deze ‘Dual-Pass’-benadering dwingt het model om een diep, intern semantisch begrip te ontwikkelen, waardoor het zichzelf effectief leert hoe te zien terwijl het leert creëren.
Productimplicaties: sneller, scherper en multimodaal
De praktische resultaten van deze verschuiving zijn grimmig. Volgens het onderzoekspaper convergeert Self-Flow ongeveer 2,8x sneller dan de REpresentation Alignment (REPA)-methode, de huidige industriestandaard voor het uitlijnen van functies. Misschien nog belangrijker is dat het niet stagneert; Naarmate de rekenkracht en de parameters toenemen, blijft Self-Flow verbeteren, terwijl oudere methoden een afnemend rendement laten zien.
De sprong in trainingsefficiëntie kan het beste worden begrepen door de lens van ruwe computerstappen: terwijl standaard ‘vanille’-training traditioneel 7 miljoen stappen vereist om een basisprestatieniveau te bereiken, verkortte REPA dat traject tot slechts 400.000 stappen, wat neerkomt op een versnelling van 17,5x.
Het Self-Flow-framework van Black Forest Labs verlegt deze grens nog verder en werkt 2,8x sneller dan REPA en bereikt in ongeveer 143.000 stappen dezelfde prestatiemijlpaal.
Alles bij elkaar vertegenwoordigt deze evolutie een bijna 50x reductie van het totale aantal trainingsstappen dat nodig is om resultaten van hoge kwaliteit te bereiken, waardoor wat ooit een enorme behoefte aan middelen was, effectief wordt samengevouwen tot een aanzienlijk toegankelijker en gestroomlijnder proces.
Black Forest Labs heeft deze winsten gedemonstreerd via een multimodaal model met 4B-parameters. Getraind op een enorme dataset van 200 miljoen afbeeldingen, 6 miljoen video’s en 2 miljoen audio-videoparen, liet het model aanzienlijke sprongen zien op drie belangrijke gebieden:
-
Typografie en tekstweergave: Een van de meest hardnekkige ‘vertellen’ van AI-afbeeldingen is verminkte tekst. Self-Flow presteert aanzienlijk beter dan vanilla flow matching bij het weergeven van complexe, leesbare borden en labels, zoals een neonbord met de juiste spelling “FLUX is multimodaal”.
-
Tijdelijke consistentie: Bij het genereren van video’s elimineert Self-Flow veel van de “gehallucineerde” artefacten die veel voorkomen in de huidige modellen, zoals ledematen die spontaan verdwijnen tijdens beweging.
-
Gezamenlijke video-audiosynthese: Omdat het model representaties van nature leert, kan het gesynchroniseerde video en audio genereren vanaf een enkele prompt, een taak waarbij externe “geleende” representaties vaak mislukken omdat een beeldencoder geluid niet begrijpt.
In termen van kwantitatieve statistieken behaalde Self-Flow superieure resultaten ten opzichte van concurrerende basislijnen. Op Image FID scoorde het model 3,61 vergeleken met REPA’s 3,92. Voor video (FVD) bereikte het 47,81 vergeleken met REPA’s 49,59, en voor audio (FAD) scoorde het 145,65 vergeleken met de vanille-basislijn van 148,87.
Van pixels tot planning: het pad naar wereldmodellen
De aankondiging eindigt met een blik op wereldmodellen: AI die niet alleen mooie plaatjes genereert, maar ook de onderliggende fysica en logica begrijpt van een scène voor planning en robotica.
Door een 675M-parameterversie van Self-Flow op de RT-1-roboticadataset te verfijnen, behaalden onderzoekers aanzienlijk hogere succespercentages bij complexe, uit meerdere stappen bestaande taken in de SIMPLER-simulator. Terwijl standaard flowmatching worstelde met complexe ‘Open and Place’-taken, en vaak helemaal faalde, handhaafde het Self-Flow-model een stabiel succespercentage, wat suggereert dat de interne representaties robuust genoeg zijn voor visueel redeneren in de echte wereld.
Implementatie- en engineeringdetails
Voor onderzoekers die deze beweringen willen verifiëren: Black Forest Labs heeft een inferentiesuite op GitHub uitgebracht specifiek voor de ImageNet 256×256-generatie. Het project, voornamelijk geschreven in Python, biedt de SelfFlowPerTokenDiT-modelarchitectuur op basis van SiT-XL/2.
Ingenieurs kunnen het meegeleverde sample.py-script gebruiken om 50.000 afbeeldingen te genereren voor standaard FID-evaluatie. De repository benadrukt dat een belangrijke architecturale wijziging in deze implementatie de tijdstapconditionering per token is, waardoor elk token in een reeks kan worden geconditioneerd op basis van zijn specifieke ruistijdstap. Tijdens de training maakte het model gebruik van gemengde precisie van BFloat16 en de AdamW-optimizer met gradiëntclipping om de stabiliteit te behouden.
Licentie en beschikbaarheid
Zwarte Woud Labs heeft het onderzoeksrapport gemaakt En officiële inferentiecode beschikbaar via GitHub en hun onderzoeksportaal. Hoewel dit momenteel een onderzoeksvoorbeeld is, suggereert de staat van dienst van het bedrijf met de FLUX-modelfamilie dat deze innovaties in de nabije toekomst waarschijnlijk hun weg zullen vinden naar hun commerciële API- en open-weights-aanbod.
Voor ontwikkelaars is de overstap van externe encoders een enorme winst voor de efficiëntie. Het elimineert de noodzaak om tijdens de training afzonderlijke, zware modellen zoals DINOv2 te beheren, waardoor de stapel wordt vereenvoudigd en meer gespecialiseerde, domeinspecifieke training mogelijk wordt gemaakt die niet afhankelijk is van het ‘bevroren’ begrip van de wereld van iemand anders.
Takeaways voor technische besluitvormers en adoptanten van ondernemingen
Voor ondernemingen betekent de komst van Self-Flow een aanzienlijke verschuiving in de kosten-batenanalyse van de ontwikkeling van eigen AI.
Hoewel de meest directe begunstigden organisaties zijn die grootschalige modellen helemaal opnieuw trainen, toont het onderzoek aan dat de technologie even krachtig is voor het verfijnen van hoge resoluties. Omdat de methode bijna drie keer sneller convergeert dan de huidige standaarden, kunnen bedrijven state-of-the-art resultaten behalen met een fractie van het traditionele computerbudget.
Deze efficiëntie maakt het voor bedrijven haalbaar om verder te gaan dan generieke kant-en-klare oplossingen en gespecialiseerde modellen te ontwikkelen die nauw aansluiten bij hun specifieke datadomeinen, of het nu gaat om niche-medische beeldvorming of bedrijfseigen industriële sensorgegevens.
De praktische toepassingen van deze technologie strekken zich uit tot industriële sectoren met hoge inzet, met name robotica en autonome systemen. Door gebruik te maken van het vermogen van het raamwerk om ‘wereldmodellen’ te leren, kunnen ondernemingen in de productie- en logistieke sector vision-taal-actie (VLA)-modellen ontwikkelen die een superieur begrip van de fysieke ruimte en sequentieel redeneren bezitten.
In simulatietests zorgde Self-Flow ervoor dat robotcontrollers met succes complexe taken met meerdere objecten konden uitvoeren, zoals het openen van een la om er een item in te plaatsen, waar traditionele generatieve modellen faalden. Dit suggereert dat de technologie een fundamenteel hulpmiddel is voor elke onderneming die de kloof wil overbruggen tussen het genereren van digitale inhoud en fysieke automatisering in de echte wereld.
Naast prestatiewinst biedt Self-Flow bedrijven een strategisch voordeel door de onderliggende AI-infrastructuur te vereenvoudigen. De meeste huidige generatieve systemen zijn “Frankenstein”-modellen die complexe, externe semantische encoders vereisen, vaak eigendom van en onder licentie van derden.
Door representatie en generatie in één enkele architectuur te verenigen, stelt Self-Flow bedrijven in staat deze externe afhankelijkheden te elimineren, de technische schulden te verminderen en de “knelpunten” weg te nemen die gepaard gaan met het opschalen van leraren van derden. Dit op zichzelf staande karakter zorgt ervoor dat naarmate een onderneming haar rekenkracht en data schaalt, de prestaties van het model voorspelbaar meeschalen, wat een duidelijker ROI oplevert voor AI-investeringen op de lange termijn.

