Het afgelopen jaar hebben besluitvormers in het bedrijfsleven te maken gehad met een rigide architecturale afweging op het gebied van stem-AI: een ‘native’ spraak-naar-spraak (S2S)-model gebruiken voor snelheid en emotionele betrouwbaarheid, of vasthouden aan een ‘modulaire’ stapel voor controle en controleerbaarheid. Die binaire keuze is geëvolueerd naar een duidelijke marktsegmentatie, aangedreven door twee gelijktijdige krachten die het landschap hervormen.
Wat ooit een prestatiebeslissing was, is een bestuurs- en compliancebeslissing geworden, nu stemagenten overstappen van pilots naar gereguleerde, klantgerichte workflows.
Aan de ene kant heeft Google de ‘rauwe intelligentie’-laag gecommoditiseerd. Met de uitgave van Gemini 2.5 Flitser en nu Gemini 3.0 Flitserheeft Google zichzelf gepositioneerd als de grote nutsaanbieder met prijzen die stemautomatisering economisch haalbaar maken voor workflows die voorheen te goedkoop waren om te rechtvaardigen. Open AI reageerde in augustus met een prijsverlaging van 20% op zijn Realtime API, waardoor de kloof met Gemini grofweg werd verkleind 2x – nog steeds betekenisvol, maar niet langer onoverkomelijk.
Aan de andere kant ontstaat er een nieuwe ‘Unified’ modulaire architectuur. Door de ongelijksoortige componenten van een stemstapel fysiek bij elkaar te plaatsen, bieden transcriptie-, redeneer- en synthese-aanbieders elkaar aan Samen AI pakken de latentieproblemen aan die voorheen modulaire ontwerpen belemmerden. Deze architectonische tegenaanval levert een native-snelheid, terwijl de audittrails en interventiepunten behouden blijven die gereguleerde industrieën nodig hebben.
Samen zorgen deze krachten ervoor dat de historische wisselwerking tussen snelheid en controle in zakelijke spraaksystemen ineenstort.
Voor bedrijfsleiders gaat de vraag niet langer alleen maar over de prestaties van modellen. Het is een strategische keuze tussen een kostenefficiënt, gegeneraliseerd gebruiksmodel en een domeinspecifieke, verticaal geïntegreerde stapel die compliance-eisen ondersteunt, inclusief de vraag of stemagenten op grote schaal kunnen worden ingezet zonder auditlacunes, regelgevingsrisico’s of downstream-aansprakelijkheid te introduceren.
De drie architecturale paden begrijpen
Deze architectonische verschillen zijn niet academisch; ze geven rechtstreeks vorm aan latentie, controleerbaarheid en de mogelijkheid om in te grijpen in live steminteracties.
De enterprise voice AI-markt heeft zich rond drie verschillende architecturen geconsolideerd, elk geoptimaliseerd voor verschillende afwegingen tussen snelheid, controle en kosten. S2S-modellen — inclusief Gemini Live van Google En De realtime API van OpenAI — audio-invoer op natuurlijke wijze verwerken om paralinguïstische signalen zoals toon en aarzeling te behouden. Maar in tegenstelling tot wat vaak wordt gedacht, zijn dit geen echte end-to-end spraakmodellen. Ze werken als wat de industrie ‘Half-Cascades’ noemt: audioverstaan gebeurt van nature, maar het model voert nog steeds op tekst gebaseerde redeneringen uit voordat de spraakuitvoer wordt gesynthetiseerd. Deze hybride aanpak bereikt een latentie in het bereik van 200 tot 300 mswaarbij de menselijke reactietijden nauw worden nagebootst, waarbij pauzes van meer dan 200 ms waarneembaar worden en onnatuurlijk aanvoelen. De wisselwerking is dat deze tussenliggende redeneerstappen ondoorzichtig blijven voor ondernemingen, waardoor de controleerbaarheid en de beleidshandhaving worden beperkt.
Traditionele geketende pijpleidingen vertegenwoordigen het tegenovergestelde uiterste. Deze modulaire stapels volgen een relais in drie stappen: Spraak-naar-tekst-engines zoals Nova-3 van Deepgram of AssemblyAI’s universele streaming audio omzetten in tekst, een LLM genereert een reactie, en tekst-naar-spraakproviders zoals ElevenLabs of Cartesia’s Sonic de output synthetiseren. Elke overdracht introduceert netwerktransmissietijd plus verwerkingsoverhead. Terwijl individuele componenten hun verwerkingstijden hebben geoptimaliseerd tot minder dan 300 ms, heeft de de totale roundtrip-latentie overschrijdt vaak de 500 mswat ‘binnenstormende’ botsingen veroorzaakt waarbij gebruikers onderbreken omdat ze aannemen dat de agent ze niet heeft gehoord.
Uniforme infrastructuur vertegenwoordigt de architecturale tegenaanval van modulaire leveranciers. Samen is AI fysiek co-locatie STT (Whisper Turbo), LLM (Llama/Mixtral) en TTS-modellen (Rime, Cartesia) op dezelfde GPU-clusters. Gegevens verplaatsen zich tussen componenten via snelle geheugenverbindingen in plaats van via het openbare internet, waardoor de totale latentie daalt tot minder dan 500 ms, terwijl de modulaire scheiding behouden blijft die bedrijven nodig hebben voor compliance. Samen benchmarkt AI de TTS-latentie op ongeveer 225 ms met behulp van Mist v2, waardoor er voldoende ruimte overblijft voor transcriptie en redenering binnen het budget van 500 ms dat natuurlijke gesprekken definieert. Deze architectuur levert de snelheid van een native model met het besturingsoppervlak van een modulaire stapel – wat de ‘Goudlokje’-oplossing kan zijn die tegelijkertijd aan zowel prestatie- als governance-eisen voldoet.
De wisselwerking is een grotere operationele complexiteit vergeleken met volledig beheerde native systemen, maar voor gereguleerde ondernemingen is die complexiteit vaak direct gekoppeld aan de vereiste controle.
Waarom latentie de gebruikerstolerantie bepaalt – en de statistieken die dit bewijzen
Het verschil tussen een succesvolle spraakinteractie en een afgebroken gesprek komt vaak neer op milliseconden. Eén extra seconde vertraging kan dat wel verminderde de gebruikerstevredenheid met 16%.
Drie technische maatstaven definiëren de productiegereedheid:
Tijd tot eerste token (TTFT) meet de vertraging vanaf het einde van de spraak van de gebruiker tot het begin van de reactie van de agent. Menselijke gesprekken tolereren onderbrekingen van ongeveer 200 ms; alles voelt nog langer robotachtig. Native S2S-modellen halen 200 tot 300 ms, terwijl modulaire stapels agressief moeten optimaliseren om onder de 500 ms te blijven.
Woordfoutpercentage (WER) meet de nauwkeurigheid van de transcriptie. Nova-3 van Deepgram levert 53,4% lagere WER voor streaming, terwijl AssemblyAI’s Universal-Streaming claimt 41% snellere woordemissielatentie. Eén enkele transcriptiefout – ‘facturering’ verkeerd opgevat als ‘bouwen’ – corrumpeert de hele stroomafwaartse redeneringsketen.
Realtimefactor (RTF) meet of het systeem spraak sneller verwerkt dan gebruikers spreken. Een RTF lager dan 1,0 is verplicht om lag-accumulatie te voorkomen. Whisper Turbo werkt 5,4x sneller dan Whisper Large v3waardoor sub-1.0 RTF op schaal haalbaar wordt zonder eigen API’s.
Het modulaire voordeel: controle en compliance
Voor gereguleerde sectoren als de gezondheidszorg en de financiële sector zijn ‘goedkoop’ en ‘snel’ ondergeschikt aan bestuur. Native S2S-modellen functioneren als ‘zwarte dozen’, waardoor het moeilijk is om te controleren wat het model heeft verwerkt voordat het reageerde. Zonder inzicht in de tussenstappen kunnen bedrijven niet verifiëren of gevoelige gegevens op de juiste manier zijn verwerkt of dat de agent de vereiste protocollen heeft gevolgd. Deze bedieningselementen zijn moeilijk – en in sommige gevallen onmogelijk – te implementeren in ondoorzichtige, end-to-end spraaksystemen.
De modulaire aanpak daarentegen handhaaft een tekstlaag tussen transcriptie en synthese, waardoor tekstverwerking mogelijk wordt gemaakt statelijke interventies onmogelijk met end-to-end audioverwerking. Enkele gebruiksscenario’s zijn onder meer:
-
PII-redactie stelt compliance-engines in staat om tussenteksten te scannen en creditcardnummers, patiëntnamen of burgerservicenummers te verwijderen voordat ze in het redeneermodel terechtkomen. Vertel AI’s opnieuw het automatisch redigeren van gevoelige persoonlijke gegevens uit transcripties verlaagt het compliancerisico aanzienlijk – een functie die Vapi niet standaard biedt.
-
Geheugeninjectie Hiermee kunnen bedrijven domeinkennis of gebruikersgeschiedenis in de directe context injecteren voordat de LLM een reactie genereert, waardoor agenten van transactionele tools worden getransformeerd in op relaties gebaseerde systemen.
-
Uitspraak autoriteit wordt van cruciaal belang in gereguleerde sectoren waar het verkeerd uitspreken van een medicijnnaam of financiële term tot aansprakelijkheid leidt. Rime’s Mist v2 richt zich op deterministische uitspraak, waardoor bedrijven uitspraakwoordenboeken kunnen definiëren die bij miljoenen oproepen strikt worden nageleefd – een mogelijkheid die native S2S-modellen moeilijk kunnen garanderen.
Architectuurvergelijkingsmatrix
De onderstaande tabel vat samen hoe elke architectuur optimaliseert voor een andere definitie van ‘productieklaar’.
|
Functie |
Native S2S (halve cascade) |
Uniform modulair (op dezelfde locatie) |
Legacy modulair (geketend) |
|
Toonaangevende spelers |
Google Gemini 2.5OpenAI Realtime |
Samen AIVapi (op locatie) |
Deepgram + Antropisch + ElevenLabs |
|
Latentie (TTFT) |
~200-300 ms (Menselijk niveau) |
~300-500 ms (Bijna-native) |
>500ms (merkbare vertraging) |
|
Kostenprofiel |
Vertakeld: Gemini heeft weinig nut (~$0,02/min); OpenAI is premium (~$0,30+/min). |
Matig/lineair: Som van componenten (~$0,15/min). Geen verborgen ‘contextbelasting’. |
Gematigd: Vergelijkbaar met Unified, maar hogere bandbreedte-/transportkosten. |
|
Staat/geheugen |
Laag: Standaard staatloos. Moeilijk om RAG midden in de stream te injecteren. |
Hoog: Volledige controle om geheugen/context tussen STT en LLM te injecteren. |
Hoog: Eenvoudige RAG-integratie, maar traag. |
|
Naleving |
“Zwarte doos”: Moeilijk om input/output rechtstreeks te controleren. |
Controleerbaar: De tekstlaag maakt PII-redactie en beleidscontroles mogelijk. |
Controleerbaar: Volledige logboeken beschikbaar voor elke stap. |
|
Beste gebruiksscenario |
Hulpprogramma voor groot volume of Conciërge. |
Gereglementeerde onderneming: Gezondheidszorg en financiën vereisen strikte audittrajecten. |
Verouderde IVR: Eenvoudige routering waarbij de latentie minder kritisch is. |
Het leveranciersecosysteem: wie wint waar
Het enterprise voice AI-landschap is gefragmenteerd in verschillende competitieve niveaus, die elk verschillende segmenten bedienen met minimale overlap. Infrastructuuraanbieders zoals Diepgram en AssemblyAI concurreren op transcriptiesnelheid en nauwkeurigheid, wat Deepgram beweert 40x snellere gevolgtrekking dan standaard cloudservices En MontageAI counteren met betere nauwkeurigheid en snelheid.
Modelaanbieders Googlen En Open AI concurreren op prijs-prestatieniveau met dramatisch verschillende strategieën. De positionering van Google voor hulpprogramma’s maakt het de standaard voor workflows met grote volumes en lage marges, terwijl OpenAI het premiumniveau verdedigt met verbeterde instructie volgende (30,5% op MultiChallenge-benchmark) en verbeterde functieaanroepen (66,5% op ComplexFuncBench). Het prijsverschil is kleiner geworden van 15x naar 4x, maar OpenAI behoudt zijn voorsprong op het gebied van emotionele expressiviteit en vloeiende gesprekken – eigenschappen die premiumprijzen voor missiekritieke interacties rechtvaardigen.
Orkestratieplatforms Wapenschild, Vertel AI opnieuwEn Milde AI concurreren op implementatiegemak en volledigheid van functies. Vapi’s aanpak waarbij de ontwikkelaar centraal staat doet een beroep op technische teams die gedetailleerde controle willen, terwijl de focus van Retell op naleving (HIPAA, automatische PII-redactie) het tot de standaard maakt voor gereguleerde industrieën. Het managed service-model van Bland richt zich op operationele teams die ‘instellen en vergeten’-schaalbaarheid willen ten koste van flexibiliteit.
Aanbieders van uniforme infrastructuur zoals Samen AI vertegenwoordigen de belangrijkste architecturale evolutie, waarbij de modulaire stapel wordt samengevouwen tot één enkel aanbod dat native-achtige latentie levert terwijl de controle op componentniveau behouden blijft. Door STT, LLM en TTS op de gedeelde GPU-clusters te plaatsen, bereikt Together AI een totale latentie van minder dan 500 ms met ~225 ms voor TTS-generatie met behulp van Mist v2.
De bottom-line
De markt is verder gegaan dan de keuze tussen ‘slim’ en ‘snel’. Bedrijven moeten nu hun specifieke vereisten (compliancehouding, latentietolerantie, kostenbeperkingen) in kaart brengen aan de architectuur die hen ondersteunt. Voor grote werkstromen in nutsvoorzieningen met routinematige interacties met laag risico, Google Gemini 2.5 Flash biedt een onverslaanbare prijs-prestatieverhouding van ongeveer 2 cent per minuut. Voor workflows die verfijnd redeneren vereisen zonder het budget te overschrijden, Gemini 3 Flitser levert professionele intelligentie tegen kosten op Flash-niveau.
Voor complexe, gereguleerde workflows die strikt beheer, specifieke vocabulairehandhaving of integratie met complexe back-endsystemen vereisen, biedt de modulaire stapel de nodige controle en controleerbaarheid zonder de latentieboetes die voorheen modulaire ontwerpen belemmerden. Samen vertegenwoordigen de co-located architectuur van AI of de compliance-first-orkestratie van Retell AI hier de sterkste kanshebbers.
De architectuur die u vandaag kiest, zal bepalen of uw stemagenten in gereguleerde omgevingen kunnen werken – een beslissing die veel meer consequenties heeft dan welk model het meest menselijk klinkt of het hoogst scoort op de nieuwste benchmark.



