Bedrijven die spraakgestuurde workflows bouwen, hebben beperkte opties gehad voor transcriptie op productieniveau: gesloten API’s met datalocatierisico’s, of open modellen die nauwkeurigheid inruilen voor inzetbaarheid. Cohere’s nieuwe open-weight ASR-model, Transcribe, is gebouwd om te concurreren op alle vier de belangrijkste onderscheidende factoren: contextuele nauwkeurigheid, latentie, controle en kosten.
Cohere zegt dat Transcribe beter presteert dan de huidige leiders op het gebied van nauwkeurigheid – en in tegenstelling tot gesloten API’s kan het op de eigen infrastructuur van een organisatie draaien.
Cohere, toegankelijk via een API of in Cohere’s Model Vault als cohere-transcribe-03-2026, heeft 2 miljard parameters en is gelicentieerd onder Apache-2.0. Het bedrijf zei dat Transcribe een gemiddeld woordfoutpercentage (WER) heeft van slechts 5,42%, waardoor het minder fouten maakt dan vergelijkbare modellen.
Het is getraind in 14 talen: Engels, Frans, Duits, Italiaans, Spaans, Grieks, Nederlands, Pools, Portugees, Chinees, Japans, Koreaans, Vietnamees en Arabisch. Het bedrijf heeft niet gespecificeerd op welk Chinees dialect het model was getraind.
Cohere zei dat het het model heeft getraind “met een doelbewuste focus op het minimaliseren van WER, terwijl de productiegereedheid voorop blijft staan.” Volgens Cohere is het resultaat een model dat bedrijven rechtstreeks kunnen aansluiten op spraakgestuurde automatiseringen, transcriptiepijplijnen en audiozoekworkflows.
Zelf-gehoste transcriptie voor productiepijplijnen
Tot voor kort was transcriptie voor ondernemingen een afweging: gesloten API’s boden nauwkeurigheid, maar waren opgesloten in gegevens; open modellen boden controle, maar bleven achter op het gebied van prestaties. In tegenstelling tot Whisper, dat werd gelanceerd als onderzoeksmodel onder MIT-licentie, is Transcribe vanaf de release beschikbaar voor commercieel gebruik en kan het draaien op de eigen lokale GPU-infrastructuur van een organisatie. Vroege gebruikers markeerden de commerciële, open-weight-benadering als zinvol voor bedrijfsimplementaties.
Organisaties kunnen Transcribe naar hun eigen lokale instanties brengen, omdat Cohere zei dat het model een beter beheersbare gevolgtrekkingsvoetafdruk heeft voor lokale GPU’s. Het bedrijf zei dat ze dit konden doen omdat het model “de Pareto-grens verlegt, state-of-the-art nauwkeurigheid levert (lage WER) en tegelijkertijd de beste doorvoer in zijn klasse behoudt (hoge RTFx) binnen het 1B+ parametermodelcohort.”
Hoe Transcribe zich opstapelt
Transcribeer beter presterende spraakmodellen, waaronder Whisper van OpenAI, dat de stemfunctie van ChatGPT aanstuurt, en ElevenLabs, dat veel grote retailmerken inzetten. Het staat momenteel bovenaan de Knuffelgezicht ASR-klassementleidend met een gemiddeld woordfoutenpercentage van 5,42%, beter dan Whisper Large v3 met 7,44%, ElevenLabs Scribe v2 met 5,83% en Qwen3-ASR-1.7B met 5,76%.
Op basis van andere door Hugging Face geteste datasets presteerde Transcribe ook goed. De AMI-dataset, die het begrip van ontmoetingen en dialooganalyse meet, behaalde Transcribe een score van 8,15%. Voor de Voxpopuli-dataset die het begrip van verschillende accenten test, scoorde het model 5,87%, alleen verslagen door Zoom Scribe.
Vroege gebruikers hebben nauwkeurigheid en lokale implementatie aangemerkt als de belangrijkste factoren, vooral voor teams die audiogegevens via externe API’s hebben gerouteerd en die werklast intern willen brengen.
Voor technische teams die RAG-pijplijnen of agent-workflows met audio-invoer bouwen, biedt Transcribe een pad naar transcriptie op productieniveau zonder de gegevensresidentie en latentieboetes van gesloten API’s.

