Home Nieuws Scale AI lanceert Voice Showdown, de eerste echte benchmark voor stem-AI –...

Scale AI lanceert Voice Showdown, de eerste echte benchmark voor stem-AI – en de resultaten zijn vernederend voor sommige topmodellen

4
0
Scale AI lanceert Voice Showdown, de eerste echte benchmark voor stem-AI – en de resultaten zijn vernederend voor sommige topmodellen

Voice AI ontwikkelt zich sneller dan de tools die we gebruiken om het te meten. Elk groot AI-lab – OpenAI, Google DeepMind, Anthropic, xAI – haast zich om stemmodellen te leveren die in staat zijn tot natuurlijke, realtime gesprekken.

Maar de benchmarks die worden gebruikt om deze modellen te evalueren, draaien grotendeels nog steeds op synthetische spraak, alleen Engelstalige aanwijzingen en scripttestsets die weinig gelijkenis vertonen met de manier waarop mensen daadwerkelijk praten.

AI-schalenhet opstarten van grote gegevensannotaties wiens oprichter vorig jaar door Meta werd gepocheerd om het Superintelligence Lab te leidenis nog steeds sterk en pakt het probleem frontaal aan: vandaag wordt het gelanceerd Stemshowdownwat het de eerste mondiale, op voorkeuren gebaseerde arena noemt, ontworpen om stem-AI te benchmarken door de lens van echte menselijke interactie.

Dit product biedt gebruikers een unieke strategische waarde: gratis toegang tot ’s werelds toonaangevende grensmodellen. Via het ChatLab-platform van Scale kunnen gebruikers kosteloos communiceren met hoogwaardige modellen, waarvoor doorgaans meerdere abonnementen van $ 20 per maand nodig zijn. In ruil daarvoor nemen gebruikers af en toe deel aan blinde, onderlinge ‘gevechten’ om te kiezen welke van de twee geanonimiseerde toonaangevende stemmodellen een betere ervaring biedt, en gegevens levert voor het meest authentieke, menselijke voorkeursklassement van stem-AI-modellen in de branche.

“Voice AI is momenteel echt de snelst bewegende grens op het gebied van AI”, zegt Janie Gu, productmanager voor Showdown bij Scale AI. “Maar de manier waarop we stemmodellen evalueren, is niet bijgehouden.”

De resultaten, afkomstig uit duizenden spontane stemgesprekken in meer dan 60 talen, onthullen hiaten in de capaciteiten die andere benchmarks consequent hebben gemist.

Hoe Scale’s Voice Showdown werkt

Voice Showdown is gebouwd op ChatLab, het modelonafhankelijke chatplatform van Scale, waar gebruikers binnen één app vrijelijk kunnen communiceren met welk grensverleggend AI-model ze ook kiezen. Het platform is beschikbaar geweest voor Scale’s wereldwijde gemeenschap van meer dan 500.000 annotators, waarvan ongeveer 300.000 minstens één prompt hebben ingediend. Scale stelt het platform vandaag open voor een openbare wachtlijst.

Het evaluatiemechanisme is elegant in zijn eenvoud: terwijl een gebruiker een natuurlijk gesproken gesprek voert met een model, komt het systeem af en toe (bij minder dan 5% van alle gesproken aanwijzingen) met een blinde vergelijking naast elkaar. Dezelfde prompt wordt naar een tweede, anoniem model gestuurd en de gebruiker kiest welk antwoord hij verkiest.

Dit ontwerp lost drie problemen op die bestaande spraakbenchmarks teisteren.

Ten eerste komt elke prompt uit echte menselijke spraak – met accenten, achtergrondgeluiden, halfafgemaakte zinnen en conversatievullers – in plaats van gesynthetiseerde audio die uit tekst wordt gegenereerd.

Ten tweede omvat het platform meer dan 60 talen op 6 continenten, waarbij meer dan een derde van de gevechten plaatsvindt in niet-Engelse talen, waaronder Spaans, Arabisch, Japans, Portugees, Hindi en Frans.

Ten derde: omdat er gevechten plaatsvinden in de daadwerkelijke dagelijkse gesprekken van gebruikers, zijn 81% van de prompts conversatievragen of vragen met een open einde: vragen zonder één enkel correct antwoord. Dat sluit geautomatiseerde scores uit en maakt menselijke voorkeur tot het enige geloofwaardige signaal.

Voice Showdown heeft momenteel twee evaluatiemodi: dicteren (gebruikers spreken, modellen reageren met tekst) en spraak-naar-spraak, of S2S (spraak-naar-spraak, gebruikers spreken, modellen praten terug). Een derde modus – Full Duplex, die realtime, onderbreekbare gesprekken vastlegt – is in ontwikkeling.

Stemmen op basis van incentives

Eén ontwerpdetail onderscheidt Voice Showdown van Chatbot Arena (LM Arena), de tekstbenchmark waar het het meest op lijkt. In LM Arena hebben critici opgemerkt dat gebruikers soms wegwerpstemmen uitbrengen zonder dat ze veel belang hebben bij de uitkomst. Voice Showdown pakt dit direct aan: nadat een gebruiker heeft gestemd op het model van zijn voorkeur, schakelt de app hem voor de rest van het gesprek over naar dat model. Als je voor GPT-4o Audio boven Gemini hebt gestemd, praat je nu met GPT-4o Audio. Die afstemming van consequentie op voorkeur ontmoedigt ongedwongen of oneerlijk stemmen.

Het systeem controleert ook op verwarring die vergelijkingen zou kunnen verstoren: beide modelreacties beginnen gelijktijdig te streamen (waardoor de snelheidsbias wordt geëlimineerd), het stemgeslacht wordt bij beide opties op elkaar afgestemd (waardoor de gendervoorkeur wordt geëlimineerd) en geen van beide modellen wordt bij naam geïdentificeerd tijdens het stemmen.

Het nieuwe Voice AI-leaderboard waar elke zakelijke besluitvormer aandacht aan moet besteden

Voice Showdown wordt vanaf 18 maart 2026 gelanceerd met 11 grensmodellen die zijn geëvalueerd over 52 model-stemparen. Niet alle modellen ondersteunen beide evaluatiemodi: het Dictate-klassement bevat 8 modellen, terwijl S2S er 6 bevat.

Leiderbord dicteren (spraak-in, tekst-uit)

In deze modus geven gebruikers een gesproken prompt en evalueren ze twee tekstreacties naast elkaar. Dit zijn de basisscores:

  1. Tweeling 3 Pro (1073)

  2. Gemini 3 Flitser (1068)

  3. GPT-4o-audio (1019)

  4. Vraag 3 Omni (1000)

  5. Voxtral Klein (925)

  6. Gemma 3n (918)

  7. GPT Realtime (875)

  8. Phi-4 Multimodaal (729)

Opmerking: Gemini 3 Pro en Gemini 3 Flash staan ​​statistisch gezien gelijk op de hoogste ranglijst.

Spraak-naar-spraak (S2S)-klassement

In deze modus spreken gebruikers met het model en evalueren ze twee concurrerende audioreacties. Ook basislijnen:

  1. Gemini 2.5 Flash-audio (1060)

  2. GPT-4o-audio (1059)

  3. Grok stem (1024)

  4. Vraag 3 Omni (1000)

  5. GPT Realtime (962)

  6. GPT Realtime 1.5 (920)

Opmerking: Gemini 2.5 Flash Audio en GPT-4o Audio staan ​​statistisch gezien op de eerste plaats in basisevaluaties.

De dicteerranglijsten worden aangevoerd door Google’s Gemini 3 Pro en Gemini 3 Flash, die statistisch gezien op nummer 1 staan, met Elo-scores rond de 1.043-1.044 na stijlcontroles.

GPT-4o Audio bezet een duidelijke derde plaats. Modellen met een open gewicht, waaronder Gemma3n, Voxtral Small en Phi-4 Multimodal, lopen aanzienlijk achter.

De Speech-to-Speech (S2S)-ranglijst laat een nauwere race aan de top zien, waarbij Gemini 2.5 Flash Audio en GPT-4o Audio statistisch op nummer 1 staan ​​in de basisranglijst.

Na aanpassing van de responslengte en opmaak – factoren die de waargenomen kwaliteit kunnen verhogen – gaat GPT-4o Audio voorop (1.102 Elo vs. 1.075 voor Gemini 2.5 Flash Audio).

Grok Voice springt naar een goede tweede plaats op 1.093 onder stijlcontroles, wat erop wijst dat de rauwe nummer 3-ranglijst de daadwerkelijke prestatiekwaliteit onderdoet.

Qwen 3 Omni, het open-weight-model van Alibaba’s Qwen-team, presteert beter op pure voorkeur dan zijn populariteit doet vermoeden: hij staat op de vierde plaats in beide modi, vóór een aantal bekendere namen.

“Als mensen binnenkomen, kiezen ze voor de grote namen”, merkte Gu op. “Maar bij voorkeur gaan minder bekende modellen zoals Qwen juist voorop.”

Verrast onthuld door voorkeursgegevens uit de echte wereld

Naast ranglijsten ligt de echte waarde van Voice Showdown in de foutdiagnostiek – en die schetsen een ingewikkelder beeld van stem-AI dan de meeste klassementen onthullen.

De meertalige kloof is groter dan je denkt

Taalrobuustheid is de grootste onderscheidende factor tussen modellen. In Dictate leiden Gemini 3-modellen in vrijwel elke geteste taal.

In S2S hangt de winnaar sterk af van welke taal er wordt gesproken: GPT-4o Audio leidt in het Arabisch en Turks; Gemini 2.5 Flash Audio is het sterkst in het Frans; Grok Voice is competitief in het Japans en Portugees.

Maar de meer alarmerende bevinding is hoe vaak sommige modellen helemaal niet meer reageren in de taal van de gebruiker.

GPT Realtime 1.5 – het nieuwere real-time spraakmodel van OpenAI – reageert ongeveer 20% van de tijd in het Engels op niet-Engelse aanwijzingen, zelfs op officieel ondersteunde talen met veel bronnen, zoals Hindi, Spaans en Turks.

Zijn voorganger, GPT Realtime, komt ongeveer de helft van dat percentage niet overeen (~10%). Gemini 2.5 Flash Audio en GPT-4o Audio zitten op ~7%.

Het fenomeen werkt in beide richtingen: sommige modellen nemen niet-Engelse context van eerder in een gesprek over naar een Engelse wending, of verstaan ​​een prompt eenvoudigweg verkeerd en genereren een niet-gerelateerd antwoord in de verkeerde taal.

Gebruikerswoorden van het platform geven de frustratie botweg weer: “Ik zei dat ik vandaag een interview heb met Quest Management en in plaats van te antwoorden, kreeg ik informatie over ‘Risicobeheer’.”

“GPT Realtime 1.5 dacht dat ik onsamenhangend sprak en raadde geestelijke gezondheidszorg aan, terwijl Qwen 3 Omni correct identificeerde dat ik een Nigeriaanse lokale taal sprak.”

De reden dat bestaande benchmarks dit over het hoofd zien: ze zijn gebouwd op synthetische spraak die is geoptimaliseerd voor zuivere akoestische omstandigheden, en ze zijn zelden meertalig. Echte sprekers in echte omgevingen (met achtergrondgeluid, korte uitingen en regionale accenten) verstoren het spraakverstaan ​​op manieren die in de laboratoriumomstandigheden niet zijn voorzien.

Stemselectie is meer dan esthetiek

Voice Showdown evalueert modellen niet alleen op modelniveau, maar ook op individueel stemniveau – en de variantie binnen de stemmencatalogus van een enkel model is opvallend.

Voor één niet nader genoemd model in het onderzoek won de best presterende stem 30 procentpunten vaker dan de slechtst presterende stem uit hetzelfde onderliggende model. Beide stemmen delen dezelfde redenering en generatie-backend. Het verschil zit puur in de audiopresentatie.

De best presterende stemmen hebben de neiging om te winnen of te verliezen op het gebied van audiobegrip en volledigheid van de inhoud – of het model u nu goed heeft gehoord en volledig heeft geantwoord. Maar de spraakkwaliteit blijft een doorslaggevende factor op stemselectieniveau, vooral als de modellen verder vergelijkbaar zijn. “Stem bepaalt rechtstreeks hoe gebruikers de interactie evalueren”, zei Gu.

Modellen degraderen in gesprekken

De meeste benchmarks testen een enkele beurt. Voice Showdown test hoe modellen zich staande houden tijdens lange gesprekken – en de resultaten zijn niet vleiend.

In Turn 1 is de kwaliteit van de inhoud verantwoordelijk voor 23% van de modelfouten. Bij bocht 11 en daarna wordt dit met 43% de primaire storingsmodus. De meeste modellen zien hun winstpercentages afnemen naarmate de gesprekken langer duren, en hebben moeite om de samenhang tussen meerdere uitwisselingen te behouden.

GPT Realtime-varianten vormen een uitzondering en verbeteren marginaal in latere beurten – consistent met hun bekende sterke punten in langere contexten, en hun gedocumenteerde zwakte in de korte, luidruchtige uitingen die vroege interacties domineren.

De lengte van de prompt laat een complementair patroon zien: korte prompts (minder dan 10 seconden) worden gedomineerd door fouten in het verstaan ​​van audio (38%), terwijl lange prompts (meer dan 40 seconden) de primaire fout verschuiven naar de kwaliteit van de inhoud (31%). Kortere audio geeft modellen minder akoestische context om te ontleden; langere verzoeken worden begrepen, maar moeilijker om goed te beantwoorden.

Waarom sommige stem-AI-modellen verliezen

Na elke S2S-vergelijking taggen gebruikers waarom ze de voorkeur gaven aan de ene reactie boven de andere, op drie assen: audioverstaan, inhoudskwaliteit en spraakuitvoer. De foutsignaturen verschillen aanzienlijk per model.

De verliezen van Qwen 3 Omni concentreren zich op het genereren van spraak: de redenering ervan is competitief, maar gebruikers worden afgeschrikt door de manier waarop het klinkt. De verliezen van GPT Realtime 1.5 worden gedomineerd door fouten in het begrijpen van audio (51%), consistent met het taalwisselgedrag bij uitdagende aanwijzingen. De mislukkingen van Grok Voice zijn evenwichtiger over alle drie de assen verdeeld, wat wijst op geen enkele dominante zwakte, maar ook geen bijzondere kracht.

Wat is het volgende

Het huidige klassement omvat turn-based interactie: jij spreekt, het model reageert, herhaalt. Maar echte stemgesprekken werken niet op die manier. Mensen onderbreken elkaar, veranderen halverwege een zin van richting en praten door elkaar heen.

Scale zegt dat Full Duplex-evaluatie – ontworpen om deze realtime dynamiek vast te leggen op basis van menselijke voorkeur in plaats van scriptscenario’s of geautomatiseerde statistieken – de volgende keer naar Showdown komt. Geen enkele bestaande benchmark legt full-duplex interactie vast via organische menselijke voorkeursgegevens.

Het klassement is live op scale.com/showdown. Er is vandaag een openbare wachtlijst geopend om lid te worden van ChatLab en te stemmen over vergelijkingen, waarbij gebruikers gratis toegang krijgen tot grensverleggende spraakmodellen, waaronder GPT-4o, Gemini en Grok, in ruil voor incidentele voorkeurstemmen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in