Home Nieuws Waarom leerplateaus zonder representatiediepte versterken (en andere belangrijke inzichten uit NeurIPS 2025)

Waarom leerplateaus zonder representatiediepte versterken (en andere belangrijke inzichten uit NeurIPS 2025)

4
0
Waarom leerplateaus zonder representatiediepte versterken (en andere belangrijke inzichten uit NeurIPS 2025)

Afbeelding gegenereerd met behulp van OpenAI’s DALL·E

Elk jaar produceert NeurIPS honderden indrukwekkende artikelen, en een handvol artikelen die op subtiele wijze de manier veranderen waarop praktijkmensen denken over schaalvergroting, evaluatie en systeemontwerp. In 2025 gingen de meest consequente werken niet over één single doorbraakmodel. In plaats daarvan hebben ze fundamentele aannames ter discussie gesteld waar academici en bedrijven stilletjes op hebben vertrouwd: grotere modellen betekenen beter redeneren, RL creëert nieuwe mogelijkheden, aandacht wordt ‘opgelost’ en generatieve modellen worden onvermijdelijk uit het hoofd geleerd.

De toppapers van dit jaar wijzen gezamenlijk op een diepere verschuiving: de vooruitgang op het gebied van AI wordt nu minder beperkt door de capaciteit van ruwe modellen en meer door architectuur, trainingsdynamiek en evaluatiestrategie.

Hieronder vindt u een technische diepgaande duik in vijf van de meest invloedrijke NeurIPS 2025-papers – en wat ze betekenen voor iedereen die echte AI-systemen bouwt.

1. LLM’s convergeren – en we hebben eindelijk een manier om dit te meten

Papier: Kunstmatige Hivemind: de open homogeniteit van taalmodellen

Jarenlang, LLM-evaluatie heeft zich op juistheid geconcentreerd. Maar bij taken met een open einde of dubbelzinnige taken zoals brainstormen, ideeën bedenken of creatieve synthese is dat vaak het geval is niet één juist antwoord. Het risico is daarentegen homogeniteit: modellen die dezelfde “veilige” antwoorden met hoge waarschijnlijkheid produceren.

Dit artikel introduceert Infinity-chat, een benchmark die expliciet is ontworpen om diversiteit en pluralisme in generaties met een open einde te meten. In plaats van antwoorden als goed of fout te beoordelen, meet het:

Het resultaat is ongemakkelijk maar belangrijk: tussen architecturen en providers convergeren modellen steeds meer op vergelijkbare resultaten – zelfs als er meerdere geldige antwoorden bestaan.

Waarom dit in de praktijk van belang is

Voor bedrijven herformuleert dit ‘afstemming’ als een afweging. Het afstemmen van voorkeuren en veiligheidsbeperkingen kan de diversiteit stilletjes verminderen, wat ertoe leidt dat assistenten zich te veilig, voorspelbaar of bevooroordeeld voelen tegenover dominante standpunten.

Afhaalmaaltijden: Als uw product afhankelijk is van creatieve of verkennende resultaten, moeten diversiteitsstatistieken eersteklas burgers zijn.

2. De aandacht is nog niet voorbij: een simpel poortje verandert alles

Papier: Gated aandacht voor grote taalmodellen

De aandacht voor transformatoren is behandeld als gevestigde techniek. Dit document bewijst dat dit niet zo is.

De auteurs introduceren een kleine architectonische verandering: pas een vraagafhankelijke sigmoïde poort toe na geschaalde puntproductaandacht, per aandachtskop. Dat is het. Geen exotische kernels, geen enorme overhead.

Akruis tientallen grootschalige trainingsruns – inclusief dichte en mengsel van deskundigen (MoE) modellen getraind op biljoenen tokens – deze gated variant:

  • Verbeterde stabiliteit

  • Minder “aandacht zinkt”

  • Versterkt prestaties in een lange context

  • Consequent beter gepresteerd dan vanille-aandacht

Waarom het werkt

De poort introduceert:

  • Niet-lineariteit in aandachtsoutputs

  • Impliciete spaarzaamheidhet onderdrukken van pathologische activaties

Dit daagt de veronderstelling uit dat aandachtsfouten puur gegevens- of optimalisatieproblemen zijn.

Afhaalmaaltijden: Enkele van de grootste LLM-betrouwbaarheidsproblemen zijn mogelijk architectonisch (niet algoritmisch) en oplosbaar met verrassend kleine veranderingen.

3. RL kan schalen – als je diepgaand schaalt, en niet alleen data

Papier: 1000-laags netwerken voor zelfgestuurd versterkend lerenG

Conventionele wijsheid zegt dat RL niet goed kan opschalen zonder grote beloningen of demonstraties. Uit dit artikel blijkt dat deze veronderstelling onvolledig is.

Door de netwerkdiepte agressief op te schalen van standaard 2 tot 5 lagen naar bijna 1.000 lagen, demonstreren de auteurs dramatische winsten in zelfgecontroleerde, doelgerichte RL, met prestatieverbeteringen variërend van 2x tot 50x.

De sleutel is niet brute kracht. Het combineert diepte met contrastieve doelstellingen, stabiele optimalisatieregimes en doelgerichte representaties

Waarom dit belangrijker is dan alleen robotica

Voor agentische systemen en autonome workflows suggereert dit dat de diepte van de representatie – en niet alleen het vormgeven van gegevens of beloningen – een cruciale hefboom kan zijn voor generalisatie en verkenning.

Afhaalmaaltijden: De schaallimieten van RL kunnen architectonisch zijn en niet fundamenteel.

4. Waarom diffusiemodellen generaliseren in plaats van onthouden

Papier: Waarom diffusiemodellen niet onthouden: de rol van impliciete dynamische regularisatie bij training

Diffusiemodellen zijn enorm overgeparameteriseerd, maar toch generaliseren ze vaak opmerkelijk goed. In dit artikel wordt uitgelegd waarom.

De auteurs identificeren twee verschillende trainingstijdschalen:

Cruciaal is dat de tijdschaal voor het onthouden lineair groeit met de grootte van de dataset, waardoor een breder venster ontstaat waarin modellen verbeteren zonder overfitting.

Praktische implicaties

Dit herformuleert strategieën voor vroeg stoppen en het schalen van datasets. Memoriseren is niet onvermijdelijk; het is voorspelbaar en vertraagd.

Afhaalmaaltijden: Bij diffusietraining verbetert de omvang van de dataset niet alleen de kwaliteit; het vertraagt ​​ook actief de overfitting.

5. RL verbetert de redeneerprestaties, niet het redeneervermogen

Papier: Stimuleert versterkend leren het redeneren in LLM’s echt?

Misschien wel het meest strategisch belangrijke resultaat van NeurIPS 2025 is ook het meest ontnuchterende.

Dit artikel test rigoureus of versterkend leren met verifieerbare beloningen (RLVR) daadwerkelijk plaatsvindt creëert nieuwe redeneervaardigheden in LLM’s – of hervormt eenvoudigweg de bestaande.

Hun conclusie: RLVR verbetert in de eerste plaats de efficiëntie van de bemonstering, niet het redeneervermogen. Bij grote steekproeven bevat het basismodel vaak al de juiste redeneertrajecten.

Wat dit betekent voor LLM-trainingspijplijnen

RL wordt beter begrepen als:

Afhaalmaaltijden: Om het redeneervermogen echt uit te breiden, moet RL waarschijnlijk gepaard gaan met mechanismen zoals lerarendistillatie of architecturale veranderingen – en niet op zichzelf gebruikt.

Het grotere plaatje: de vooruitgang op het gebied van AI wordt systeembeperkt

Alles bij elkaar wijzen deze artikelen op een gemeenschappelijk thema:

Het knelpunt erin moderne AI is niet langer de ruwe modelgrootte; het is systeemontwerp.

  • De ineenstorting van de diversiteit vereist nieuwe evaluatiemaatstaven

  • Aandachtsfouten vereisen architecturale oplossingen

  • RL-schaling is afhankelijk van diepte en representatie

  • Het onthouden is afhankelijk van de trainingsdynamiek, niet van het aantal parameters

  • De winst op het gebied van redeneren hangt af van de manier waarop distributies worden vormgegeven en niet alleen van de manier waarop ze worden geoptimaliseerd

Voor bouwers is de boodschap duidelijk: het concurrentievoordeel verschuift van ‘wie het grootste model heeft’ naar ‘wie het systeem begrijpt’.

Maitreyi Chatterjee is een software-ingenieur.

Devansh Agarwal werkt momenteel als ML-ingenieur bij FAANG.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-gevestigde diepgaande inzichten over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma — en bekijk ons richtlijnen als u geïnteresseerd bent om een ​​eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in