Home Nieuws Zoom zegt dat het het moeilijkste examen van AI heeft gehaald. Critici...

Zoom zegt dat het het moeilijkste examen van AI heeft gehaald. Critici zeggen dat het zijn buren heeft gekopieerd.

6
0
Zoom zegt dat het het moeilijkste examen van AI heeft gehaald. Critici zeggen dat het zijn buren heeft gekopieerd.

Zoomvideocommunicatiehet bedrijf dat vooral bekend staat om het verbonden houden van thuiswerkers tijdens de pandemie, maakte vorige week bekend dat het de hoogste score ooit had behaald op een van de meest veeleisende tests van kunstmatige intelligentie – een claim die een golf van verrassing, scepsis en oprechte nieuwsgierigheid door de technologie-industrie veroorzaakte.

Het in San Jose gevestigde bedrijf zei dat zijn AI-systeem scoorde 48,1 procent op de Het laatste examen van de mensheideen benchmark ontworpen door vakexperts over de hele wereld om zelfs de meest geavanceerde AI-modellen te verslaan. Dat resultaat overtreft dat van Google Tweeling 3 Prodat het vorige record op 45,8 procent hield.

“Zoom heeft een nieuw state-of-the-art resultaat behaald op de uitdagende Humanity’s Last Exam full-set benchmark, met een score van 48,1%, wat een substantiële verbetering van 2,3% betekent ten opzichte van het vorige SOTA-resultaat”, schreef Xuedong Huang, Chief Technology Officer van Zoom, in een pos-blogT.

De aankondiging roept een provocerende vraag op die AI-kijkers al dagen bezighoudt: hoe is een videoconferentiebedrijf – een bedrijf zonder publieke geschiedenis van het trainen van grote taalmodellen – plotseling voorbij gesprongen Googlen, Open AIEn Antropisch op een benchmark die is gebouwd om de grenzen van machine-intelligentie te meten?

Het antwoord onthult evenveel over waar AI naartoe gaat als over Zoom’s eigen technische ambities. En afhankelijk van wie je het vraagt, is het ofwel een ingenieuze demonstratie van praktische techniek, ofwel een holle claim die zich de eer toeëigent voor het werk van anderen.

Hoe Zoom een ​​AI-verkeersleider bouwde in plaats van zijn eigen model te trainen

Zoom heeft zijn eigen grote taalmodel niet getraind. In plaats daarvan ontwikkelde het bedrijf wat het een ‘federatieve AI-aanpak“- een systeem dat zoekopdrachten doorstuurt naar meerdere bestaande modellen van OpenAI, Google en Anthropic, en vervolgens bedrijfseigen software gebruikt om de resultaten ervan te selecteren, combineren en verfijnen.

De kern van dit systeem is wat Zoom zijn ‘Z-scorer”, een mechanisme dat reacties van verschillende modellen evalueert en de beste kiest voor een bepaalde taak. Het bedrijf koppelt dit aan wat het beschrijft als een “explore-verify-federate strategy”, een agentische workflow die verkennend redeneren in evenwicht brengt met verificatie over meerdere AI-systemen.

“Onze federatieve aanpak combineert Zoom’s eigen kleine taalmodellen met geavanceerde open-source en closed-source modellen”, schreef Huang. Het raamwerk “orkestreert diverse modellen om redeneringen te genereren, uit te dagen en te verfijnen door middel van dialectische samenwerking.”

In eenvoudiger bewoordingen: Zoom bouwde een geavanceerde verkeersregelaar voor AI, niet de AI zelf.

Dit onderscheid is enorm belangrijk in een sector waar opscheppen – en miljarden aan waardering – vaak afhangen van wie het meest capabele model kan claimen. De grote AI-laboratoria besteden honderden miljoenen dollars aan het trainen van grenssystemen op enorme computerclusters. De prestatie van Zoom lijkt daarentegen te berusten op een slimme integratie van die bestaande systemen.

Waarom AI-onderzoekers verdeeld zijn over wat telt als echte innovatie

De reactie van de AI-gemeenschap was snel en scherp verdeeld.

Max Huleen AI-ingenieur die zegt dat hij de modernste taalmodellen heeft getraind, plaatste scherpe kritiek op sociale media. “Zoom heeft API-oproepen naar Gemini, GPT, Claude et al. aan elkaar gekoppeld en een kleine verbetering doorgevoerd ten opzichte van een benchmark die geen waarde oplevert voor hun klanten”, schreef hij. “Ze claimen dan SOTA.”

Rumpf heeft de technische benadering zelf niet afgewezen. Het gebruik van meerdere modellen voor verschillende taken, merkte hij op, is “eigenlijk best slim en de meeste applicaties zouden dit moeten doen.” Hij wees op Sierra, een AI-klantenservicebedrijf, als voorbeeld van deze effectief uitgevoerde multi-modellenstrategie.

Zijn bezwaar was specifieker: “Ze hebben het model niet getraind, maar verdoezelen dit feit in de tweet. De onrechtvaardigheid van het opeisen van het werk van anderen zit diep bij mensen.”

Maar andere waarnemers zagen de prestatie anders. Hongcheng Zhueen ontwikkelaar, gaf een meer afgemeten beoordeling: “Om een ​​AI-evaluatie te overtreffen, heb je hoogstwaarschijnlijk modelfederatie nodig, zoals Zoom deed. Een analogie is dat elke Kaggle-concurrent weet dat je modellen moet combineren om een ​​wedstrijd te winnen.”

De vergelijking met Kaggle – het competitieve data science-platform waar het combineren van meerdere modellen de standaardpraktijk is onder winnende teams – herformuleert de aanpak van Zoom als best practice in de sector in plaats van als goochelarij. Academisch onderzoek heeft al lang aangetoond dat ensemblemethoden routinematig beter presteren dan individuele modellen.

Toch bracht het debat een breuklijn aan het licht in de manier waarop de sector vooruitgang interpreteert. Ryan Preamoprichter van Exoria AI, was afwijzend: “Zoom creëert gewoon een harnas rond een andere LLM en rapporteert dat. Het is alleen maar ruis.” Een andere commentator vatte de pure onverwachte kant van het nieuws op: “Dat de videoconferentie-app ZOOM een SOTA-model ontwikkelde dat 48% HLE behaalde, stond niet op mijn bingokaart.”

Misschien wel de scherpste kritiek betrof de prioriteiten. Rumpf voerde aan dat Zoom zijn middelen had kunnen richten op de problemen waarmee zijn klanten daadwerkelijk worden geconfronteerd. “Het ophalen van gesprekstranscripties wordt niet ‘opgelost’ door SOTA LLM’s”, schreef hij. “Ik denk dat de gebruikers van Zoom hier veel meer om geven dan om HLE.”

De Microsoft-veteraan die zijn reputatie inzet op een ander soort AI

Hoewel het benchmarkresultaat van Zoom uit het niets leek te komen, was dat voor de Chief Technology Officer niet het geval.

Xuedong Huang is lid geworden van Zoom van Microsoftwaar hij tientallen jaren heeft besteed aan het opbouwen van de AI-mogelijkheden van het bedrijf. Hij richtte in 1993 de spraaktechnologiegroep van Microsoft op en leidde teams die bereikten wat het bedrijf omschreef als menselijke gelijkheid op het gebied van spraakherkenning, machinevertaling, begrip van natuurlijke taal en computervisie.

Huang heeft een Ph.D. in elektrotechniek aan de Universiteit van Edinburgh. Hij is een gekozen lid van de Nationale Academie voor Ingenieurswetenschappen en de Amerikaanse Academie van Kunsten en Wetenschappenevenals een collega van beide IEEE en de ACM. Dankzij zijn referenties behoort hij tot de meest getalenteerde AI-managers in de branche.

Zijn aanwezigheid bij Zoom geeft aan dat de AI-ambities van het bedrijf serieus zijn, ook al verschillen de methoden ervan van de onderzoekslaboratoria die de krantenkoppen domineren. In zijn tweet ter ere van het benchmarkresultaat omschreef Huang de prestatie als validatie van de strategie van Zoom: “We hebben sterkere mogelijkheden ontgrendeld op het gebied van verkenning, redenering en samenwerking tussen meerdere modellen, waardoor de prestatielimieten van elk afzonderlijk model worden overschreden.”

Die laatste clausule – ‘de prestatielimieten van elk afzonderlijk model overtreffen’ – is misschien wel de belangrijkste. Huang beweert niet dat Zoom een ​​beter model heeft gebouwd. Hij beweert dat Zoom een ​​beter systeem heeft gebouwd voor het gebruik van modellen.

Binnen de test die is ontworpen om de slimste machines ter wereld te verslaan

De maatstaf die centraal staat in deze controverse, Het laatste examen van de mensheidis ontworpen om uitzonderlijk moeilijk te zijn. In tegenstelling tot eerdere tests waarbij AI-systemen hebben geleerd te gamen door middel van patroonmatching, presenteert HLE problemen die echt begrip, redeneren in meerdere stappen en de synthese van informatie over complexe domeinen vereisen.

Het examen is gebaseerd op vragen van experts over de hele wereld, variërend van geavanceerde wiskunde tot filosofie tot gespecialiseerde wetenschappelijke kennis. Een score van 48,1 procent klinkt misschien weinig indrukwekkend voor iedereen die gewend is aan schoolcijfers, maar in de context van HLE vertegenwoordigt dit het huidige plafond van machineprestaties.

“Deze benchmark is wereldwijd ontwikkeld door vakexperts en is een cruciale maatstaf geworden voor het meten van de vooruitgang van AI in de richting van prestaties op menselijk niveau bij uitdagende intellectuele taken,” Zoom’s aankondiging opgemerkt.

De verbetering van het bedrijf met 2,3 procentpunten ten opzichte van het vorige record van Google lijkt op zichzelf misschien bescheiden. Maar bij competitieve benchmarking, waar de winst vaak slechts een fractie van een procent bedraagt, trekt een dergelijke sprong de aandacht.

Wat de aanpak van Zoom onthult over de toekomst van zakelijke AI

De aanpak van Zoom heeft implicaties die veel verder reiken dan de benchmark-klassementen. Het bedrijf geeft blijk van een visie op AI voor ondernemingen die fundamenteel verschilt van de modelgerichte strategieën die door het bedrijf worden nagestreefd Open AI, AntropischEn Googlen.

In plaats van alles in te zetten op het bouwen van het meest capabele model, positioneert Zoom zichzelf als een orkestratielaag: een bedrijf dat de beste mogelijkheden van meerdere providers kan integreren en deze kan leveren via producten die bedrijven al dagelijks gebruiken.

Deze strategie dekt zich in tegen een kritieke onzekerheid op de AI-markt: niemand weet welk model volgende maand het beste zal zijn, laat staan ​​volgend jaar. Door een infrastructuur te bouwen die tussen providers kan wisselen, vermijdt Zoom de lock-in van een leverancier, terwijl het klanten in theorie de best beschikbare AI biedt voor elke bepaalde taak.

De aankondiging van GPT-5.2 van OpenAI de volgende dag onderstreepte deze dynamiek. In OpenAI’s eigen communicatie werd Zoom genoemd als een partner die de prestaties van het nieuwe model had geëvalueerd “voor hun AI-workloads en over de hele linie meetbare winsten zag.” Met andere woorden, Zoom is zowel een klant van de grenslaboratoria als nu een concurrent op het gebied van hun benchmarks – met behulp van hun eigen technologie.

Deze regeling kan duurzaam blijken. De grote aanbieders van modellen hebben alle prikkels om API-toegang op grote schaal te verkopen, zelfs aan bedrijven die hun output zouden kunnen bundelen. De interessantere vraag is of de orkestratiecapaciteiten van Zoom echt intellectueel eigendom vormen of louter geavanceerde, snelle engineering die anderen zouden kunnen repliceren.

De echte test komt wanneer de 300 miljoen gebruikers van Zoom vragen beginnen te stellen

Zoom noemde zijn aankondigingssectie over relaties met de sector “Een samenwerkende toekomst‘, en Huang maakte overal dankbaarheid. ‘De toekomst van AI is collaboratief, niet competitief’, schreef hij. ‘Door de beste innovaties uit de hele sector te combineren met onze eigen doorbraken in onderzoek, creëren we oplossingen die groter zijn dan de som der delen.’

Deze opstelling positioneert Zoom als een welwillende integrator, die het beste werk uit de branche samenbrengt ten behoeve van zakelijke klanten. Critici zien iets anders: een bedrijf dat het prestige van een AI-laboratorium claimt zonder het fundamentele onderzoek te doen dat het verdient.

Het debat zal waarschijnlijk niet worden beslecht door klassementen, maar door producten. Wanneer AI-metgezel 3.0 de komende maanden de honderden miljoenen gebruikers van Zoom bereikt, zullen zij hun eigen oordeel vellen – niet op basis van benchmarks waar ze nog nooit van hebben gehoord, maar op de vraag of de samenvatting van de bijeenkomst daadwerkelijk heeft vastgelegd wat er toe deed, of de actie-items zinvol waren, of de AI hen tijd heeft bespaard of verspild.

Uiteindelijk is de meest provocerende claim van Zoom misschien niet dat het bovenaan de benchmark staat. Het kan het impliciete argument zijn dat in het tijdperk van AI het beste model niet het model is dat je bouwt, maar het model dat je weet te gebruiken.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in