Home Nieuws De nieuwe AI-architectuur van NYU maakt het genereren van hoogwaardige afbeeldingen sneller...

De nieuwe AI-architectuur van NYU maakt het genereren van hoogwaardige afbeeldingen sneller en goedkoper

16
0

Onderzoekers van de New York University hebben een nieuwe architectuur voor diffusiemodellen ontwikkeld die de semantische representatie van de beelden die ze genereren verbetert. “Diffusietransformator met representatie-auto-encoders“(RAE) daagt enkele van de geaccepteerde normen voor het bouwen van diffusiemodellen uit. Het model van de NYU-onderzoeker is efficiënter en nauwkeuriger dan standaard diffusiemodellen, maakt gebruik van het nieuwste onderzoek op het gebied van representatie-leren en zou de weg kunnen vrijmaken voor nieuwe toepassingen die voorheen te moeilijk of te duur waren.

Deze doorbraak zou betrouwbaardere en krachtigere functies voor bedrijfsapplicaties kunnen ontsluiten. “Om afbeeldingen goed te kunnen bewerken, moet een model echt begrijpen wat er in zit”, vertelde co-auteur Saining Xie aan VentureBeat. “RAE helpt dat begripsgedeelte te verbinden met het generatiegedeelte.” Hij wees ook op toekomstige toepassingen in “RAG-gebaseerde generatie, waarbij je RAE-encoderfuncties gebruikt voor zoeken en vervolgens nieuwe afbeeldingen genereert op basis van de zoekresultaten”, evenals in “videogeneratie en actie-geconditioneerde wereldmodellen.”

De staat van generatieve modellering

Verspreidingsmodellende technologie achter de meeste krachtige beeldgeneratoren van vandaag, framegeneratie als een proces waarbij u afbeeldingen leert comprimeren en decomprimeren. A Variabele auto-encoder (VAE) leert een compacte weergave van de belangrijkste kenmerken van een afbeelding in een zogenaamde ‘latente ruimte’. Het model wordt vervolgens getraind om nieuwe beelden te genereren door dit proces van willekeurige ruis om te keren.

Hoewel het diffusiegedeelte van deze modellen is vooruitgegaan, is de autoencoder die in de meeste ervan wordt gebruikt de afgelopen jaren grotendeels onveranderd gebleven. Volgens de NYU-onderzoekers is deze standaard autoencoder (SD-VAE) geschikt voor het vastleggen van kenmerken op laag niveau en lokaal uiterlijk, maar mist hij de “globale semantische structuur die cruciaal is voor generalisatie en generatieve prestaties.”

Tegelijkertijd heeft het vakgebied indrukwekkende vooruitgang geboekt op het gebied van het leren van beeldrepresentatie met modellen als DINO, MAE en KLEM. Deze modellen leren semantisch gestructureerde visuele kenmerken die over taken heen generaliseren en kunnen dienen als een natuurlijke basis voor visueel begrip. Een wijdverbreide overtuiging heeft ontwikkelaars er echter van weerhouden deze architecturen te gebruiken bij het genereren van afbeeldingen: modellen die zich richten op semantiek zijn niet geschikt voor het genereren van afbeeldingen omdat ze geen gedetailleerde kenmerken op pixelniveau vastleggen. Beoefenaars zijn ook van mening dat diffusiemodellen niet goed werken met het soort hoogdimensionale representaties dat semantische modellen produceren.

Diffusie met representatie-encoders

De NYU-onderzoekers stellen voor om de standaard VAE te vervangen door ‘representation autoencoders’ (RAE). Dit nieuwe type autoencoder koppelt een vooraf getrainde representatie-encoder, zoals Meta’s DINOmet een getrainde vision-transformatordecoder. Deze aanpak vereenvoudigt het trainingsproces door gebruik te maken van bestaande, krachtige encoders die al zijn getraind op enorme datasets.

Om dit te laten werken, heeft het team een ​​variant van de diffusie transformatie (DiT), de ruggengraat van de meeste modellen voor het genereren van afbeeldingen. Deze aangepaste DiT kan efficiënt worden getraind in de hoogdimensionale ruimte van RAE’s zonder dat dit enorme computerkosten met zich meebrengt. De onderzoekers laten zien dat encoders voor bevroren representatie, zelfs degene die zijn geoptimaliseerd voor semantiek, kunnen worden aangepast voor taken voor het genereren van afbeeldingen. Hun methode levert reconstructies op die superieur zijn aan de standaard SD-VAE zonder architecturale complexiteit toe te voegen.

Het omarmen van deze aanpak vereist echter een omslag in het denken. “RAE is geen eenvoudige plug-and-play autoencoder; het diffusiemodelleringsgedeelte moet ook evolueren”, legt Xie uit. “Een belangrijk punt dat we willen benadrukken is dat latente ruimtemodellering en generatieve modellering gezamenlijk moeten worden ontworpen in plaats van afzonderlijk te worden behandeld.”

Met de juiste architecturale aanpassingen ontdekten de onderzoekers dat hoger-dimensionale representaties een voordeel zijn, omdat ze een rijkere structuur, snellere convergentie en betere generatiekwaliteit bieden. In hun papiermerken de onderzoekers op dat deze “hoger-dimensionale latenten feitelijk geen extra computer- of geheugenkosten met zich meebrengen.” Bovendien is de standaard SD-VAE rekentechnisch duurder en vereist ongeveer zes keer meer rekenkracht voor de encoder en drie keer meer voor de decoder, vergeleken met RAE.

Sterkere prestaties en efficiëntie

De nieuwe modelarchitectuur levert aanzienlijke winsten op in zowel de trainingsefficiëntie als de generatiekwaliteit. Het verbeterde verspreidingsrecept van het team behaalt sterke resultaten na slechts 80 trainingsperioden. Vergeleken met eerdere diffusiemodellen die op VAE’s zijn getraind, bereikt het op RAE gebaseerde model een trainingssnelheid van 47x. Het presteert ook beter dan recente methoden gebaseerd op representatie-uitlijning met een 16x trainingsversnelling. Dit efficiëntieniveau vertaalt zich direct in lagere trainingskosten en snellere modelontwikkelingscycli.

Voor zakelijk gebruik vertaalt dit zich in betrouwbaardere en consistentere resultaten. Xie merkte op dat op RAE gebaseerde modellen minder gevoelig zijn voor semantische fouten die voorkomen bij klassieke diffusie, en voegde eraan toe dat RAE het model “een veel slimmere lens op de gegevens” geeft. Hij merkte op dat toonaangevende modellen als ChatGPT-4o en Google’s Nano Banana zich bewegen in de richting van ‘onderwerpgestuurde, zeer consistente en op kennis gebaseerde generatie’, en dat de semantisch rijke basis van RAE de sleutel is tot het bereiken van deze betrouwbaarheid op schaal en in open source-modellen.

De onderzoekers hebben deze prestatie aangetoond op de ImageNet-benchmark. Met behulp van de Fréchet-beginafstand (FID)-metriek, waarbij een lagere score afbeeldingen van hogere kwaliteit aangeeft, behaalde het op RAE gebaseerde model zonder begeleiding een state-of-the-art score van 1,51. Met AutoGuidance, een techniek die een kleiner model gebruikt om het generatieproces te sturen, daalde de FID-score naar een nog indrukwekkendere 1,13 voor zowel 256×256 als 512×512 afbeeldingen.

Door het moderne representatieleren met succes te integreren in het diffusieraamwerk, opent dit werk een nieuw pad voor het bouwen van capabelere en kosteneffectievere generatieve modellen. Deze eenwording wijst in de richting van een toekomst van meer geïntegreerde AI-systemen.

“Wij geloven dat er in de toekomst één enkel, verenigd representatiemodel zal zijn dat de rijke, onderliggende structuur van de werkelijkheid vastlegt… in staat om te decoderen in veel verschillende outputmodaliteiten,” zei Xie. Hij voegde eraan toe dat RAE een uniek pad naar dit doel biedt: “De hoogdimensionale latente ruimte moet afzonderlijk worden geleerd om een ​​sterke prior te bieden die vervolgens in verschillende modaliteiten kan worden gedecodeerd – in plaats van te vertrouwen op een brute-force-aanpak waarbij alle gegevens en training met meerdere doelstellingen tegelijk worden gecombineerd.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in