Home Nieuws Meta keert terug naar open source AI met omnilinguale ASR-modellen die meer...

Meta keert terug naar open source AI met omnilinguale ASR-modellen die meer dan 1.600 talen native kunnen transcriberen

16
0

Meta heeft zojuist een nieuwe uitgebracht meertalig automatisch spraakherkenningssysteem (ASR). ondersteunt meer dan 1.600 talen – wat OpenAI’s open source Whisper-model, dat slechts 99 ondersteunt, in de schaduw stelt.

Dankzij de architectuur kunnen ontwikkelaars die ondersteuning ook uitbreiden naar duizenden anderen. Via een functie die zero-shot in-context learning wordt genoemd, kunnen gebruikers op het moment van inferentie een paar gepaarde voorbeelden van audio en tekst in een nieuwe taal leveren, waardoor het model aanvullende uitingen in die taal kan transcriberen zonder enige hertraining.

In de praktijk breidt dit de potentiële dekking uit naar meer dan 5.400 talen – ruwweg elke gesproken taal met een bekend schrift.

Het is een verschuiving van statische modelmogelijkheden naar een flexibel raamwerk dat gemeenschappen zelf kunnen aanpassen. Dus terwijl de 1.600 talen de officiële dekking van de trainingen weerspiegelen, vertegenwoordigt het bredere cijfer het vermogen van Omnilingual ASR om op aanvraag te generaliseren, waardoor dit het meest uitbreidbare spraakherkenningssysteem is dat tot nu toe is uitgebracht.

Het beste van alles: het is open source onder een gewone Apache 2.0-licentie – geen restrictieve, quasi open-source Llama-licentie zoals de eerdere releases van het bedrijf, die het gebruik door grotere ondernemingen beperkten, tenzij ze licentiekosten betaalden – wat betekent dat onderzoekers en ontwikkelaars de vrijheid hebben om deze meteen, gratis en zonder beperkingen te gebruiken en te implementeren, zelfs in commerciële en ondernemingsgerichte projecten!

Uitgebracht op 10 november Meta’s website, Githubsamen met een demoruimte op Knuffelgezicht En technisch papierDe omnilinguale ASR-suite van Meta omvat een reeks spraakherkenningsmodellen, een meertalig audiorepresentatiemodel met 7 miljard parameters en een enorm spraakcorpus dat meer dan 350 voorheen onderbediende talen omvat.

Alle bronnen zijn gratis beschikbaar onder open licenties en de modellen ondersteunen kant-en-klare spraak-naar-tekst-transcriptie.

“Door deze modellen en datasets open te sourcen, willen we taalbarrières slechten, de digitale toegang uitbreiden en gemeenschappen over de hele wereld versterken”, schreef Meta op zijn website. @AIatMeta-account op X

Ontworpen voor spraak-naar-tekst-transcriptie

In de kern is Omnilingual ASR een spraak-naar-tekst-systeem.

De modellen zijn getraind om gesproken taal om te zetten in geschreven tekst en ondersteunen toepassingen zoals stemassistenten, transcriptietools, ondertitels, digitalisering van mondelinge archieven en toegankelijkheidsfuncties voor talen met weinig hulpmiddelen.

In tegenstelling tot eerdere ASR-modellen waarvoor uitgebreide gelabelde trainingsgegevens nodig waren, bevat Omnilingual ASR een zero-shot-variant.

Deze versie kan talen transcriberen die nog nooit eerder zijn gezien, met behulp van slechts een paar gepaarde voorbeelden van audio en bijbehorende tekst.

Dit verlaagt de drempel voor het toevoegen van nieuwe of bedreigde talen dramatisch, waardoor de noodzaak voor grote corpora of omscholing wordt weggenomen.

Modelfamilie en technisch ontwerp

De omnilinguale ASR-suite omvat meerdere modelfamilies die zijn getraind in meer dan 4,3 miljoen uur audio uit meer dan 1.600 talen:

  • wav2vec 2.0-modellen voor zelfstandig leren van spraakrepresentatie (300M–7B-parameters)

  • Op CTC gebaseerde ASR-modellen voor efficiënte transcriptie onder toezicht

  • LLM-ASR-modellen die een spraakencoder combineren met een op Transformer gebaseerde tekstdecoder voor geavanceerde transcriptie

  • LLM-ZeroShot ASR-model, dat aanpassing van de inferentietijd aan onzichtbare talen mogelijk maakt

Alle modellen volgen een encoder-decoder-ontwerp: onbewerkte audio wordt omgezet in een taalonafhankelijke representatie en vervolgens gedecodeerd in geschreven tekst.

Waarom de schaal ertoe doet

Hoewel Whisper en vergelijkbare modellen geavanceerde ASR-mogelijkheden hebben voor mondiale talen, schieten ze tekort op het gebied van de menselijke taaldiversiteit. Whisper ondersteunt 99 talen. Meta’s systeem:

  • Ondersteunt rechtstreeks meer dan 1.600 talen

  • Kan generaliseren naar meer dan 5.400 talen met behulp van in-context leren

  • Behaalt tekenfoutpercentages (CER) van minder dan 10% in 78% van de ondersteunde talen

Onder de ondersteunde talen bevinden zich volgens Meta’s onderzoekspaper meer dan 500 talen die nog nooit eerder onder een ASR-model vielen.

Deze uitbreiding opent nieuwe mogelijkheden voor gemeenschappen waarvan de talen vaak zijn uitgesloten van digitale hulpmiddelen

Hier is het herziene en uitgebreide achtergrondgedeelte, waarin de bredere context van Meta’s AI-strategie voor 2025, leiderschapsveranderingen en de receptie van Llama 4 zijn geïntegreerd, compleet met citaten en links in de tekst:

Achtergrond: Meta’s AI-revisie en een rebound van Llama 4

De release van Omnilingual ASR komt op een cruciaal moment in de AI-strategie van Meta, na een jaar gekenmerkt door organisatorische turbulentie, leiderschapsveranderingen en ongelijkmatige productuitvoering.

Meertalige ASR is de eerste grote open-sourcemodelrelease sinds de uitrol van Llama 4, Meta’s nieuwste grote taalmodel, dat debuteerde in april 2025 naar gemengde en uiteindelijk slechte recensiesmet een geringe adoptie door bedrijven vergeleken met Chinese concurrenten op het gebied van open source-modellen.

Het falen bracht Meta-oprichter en CEO Mark Zuckerberg ertoe Alexandr Wang, mede-oprichter en voormalig CEO van AI-dataleverancier Scale AI, te benoemen. als Chief AI-officieren begin aan een uitgebreide en kostbare personeelswerving waarmee de AI en het bedrijfsleven werden geschokt oogverblindende loonpakketten voor top AI-onderzoekers.

Omnilingual ASR vertegenwoordigt daarentegen een strategische en reputatiereset. Het brengt Meta terug naar een domein waar het bedrijf historisch gezien leiding aan heeft gegeven – meertalige AI – en biedt een echt uitbreidbare, gemeenschapsgerichte stapel met minimale toetredingsdrempels.

De ondersteuning van het systeem voor meer dan 1.600 talen en de uitbreidbaarheid ervan tot meer dan 5.000 extra via zero-shot in-context learning bevestigen Meta’s technische geloofwaardigheid op het gebied van taaltechnologie.

Belangrijk is dat het dit doet via een gratis en met toestemming gelicentieerde release, onder Apache 2.0, met transparante dataset-sourcing en reproduceerbare trainingsprotocollen.

Deze verschuiving sluit aan bij bredere thema’s in Meta’s 2025-strategie. Het bedrijf heeft zijn verhaal geheroriënteerd rond een ‘persoonlijke superintelligentie’-visie, waarbij het zwaar investeert in infrastructuur (inclusief een release in september van op maat gemaakte AI-versnellers en Arm-gebaseerde inferentiestapels) bron terwijl de metaverse wordt gebagatelliseerd ten gunste van fundamentele AI-mogelijkheden. De terugkeer naar openbare trainingsgegevens in Europa na een pauze in de regelgeving onderstreept ook de intentie van Europa om wereldwijd te concurreren, ondanks privacycontrole bron.

Alzijdige ASR is dus meer dan een modelrelease: het is een berekende zet om de controle over het verhaal te herbevestigen: van de gefragmenteerde uitrol van Llama 4 naar een uiterst bruikbare, op onderzoek gebaseerde bijdrage die aansluit bij Meta’s AI-platformstrategie voor de lange termijn.

Gemeenschapsgerichte verzameling van gegevenssets

Om deze schaal te bereiken, werkte Meta samen met onderzoekers en gemeenschapsorganisaties in Afrika, Azië en elders om het Omnilingual ASR Corpus te creëren, een dataset van 3.350 uur in 348 talen met weinig hulpbronnen. De bijdragers waren gecompenseerde lokale sprekers en de opnames werden verzameld in samenwerking met groepen als:

  • Afrikaanse volgende stemmen: Een door de Gates Foundation ondersteund consortium bestaande uit Maseno University (Kenia), University of Pretoria en Data Science Nigeria

  • De gemeenschappelijke stem van de Mozilla Foundationondersteund via het Open Multilingual Speech Fund

  • Lanfrica / NaijaVoicesdie gegevens creëerde voor 11 Afrikaanse talen, waaronder Igala, Serer en Urhobo

De gegevensverzameling was gericht op natuurlijke, niet-gescripte spraak. Prompts zijn ontworpen om cultureel relevant en open te zijn, zoals “Is het beter om een ​​paar goede vrienden te hebben of veel losse kennissen? Waarom?” Bij de transcripties werd gebruik gemaakt van gevestigde schrijfsystemen, waarbij kwaliteitsborging in elke stap was ingebouwd.

Prestatie- en hardwareoverwegingen

Het grootste model in de suite, de omniASR_LLM_7B, vereist ~17GB GPU-geheugen voor inferentie, waardoor het geschikt is voor implementatie op geavanceerde hardware. Kleinere modellen (300M–1B) kunnen op apparaten met een lager vermogen worden uitgevoerd en real-time transcriptiesnelheden leveren.

Prestatiebenchmarks laten sterke resultaten zien, zelfs in scenario’s met weinig middelen:

  • CER <10% in 95% van de talen met veel en middelmatige bronnen

  • CER <10% in 36% van de talen met weinig hulpmiddelen

  • Robuustheid in luidruchtige omstandigheden en onzichtbare domeinen, vooral met fijnafstemming

Het zero-shot-systeem, omniASR_LLM_7B_ZS, kan nieuwe talen transcriberen met minimale instellingen. Gebruikers bieden een paar voorbeelden van audio-tekstparen, en het model genereert transcripties voor nieuwe uitingen in dezelfde taal.

Open Access en ontwikkelaarstools

Alle modellen en de dataset zijn gelicentieerd onder toegestane voorwaarden:

Installatie wordt ondersteund via PyPI en uv:

pip install omnilingual-asr

Meta biedt ook:

  • Een HuggingFace-dataset-integratie

  • Vooraf gebouwde gevolgtrekkingspijplijnen

  • Taalcodeconditionering voor verbeterde nauwkeurigheid

Ontwikkelaars kunnen de volledige lijst met ondersteunde talen bekijken met behulp van de API:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs))
print(supported_langs)

Bredere implicaties

Meertalige ASR herformuleert de taaldekking in ASR van een vaste lijst naar een uitbreidbaar raamwerk. Het maakt het volgende mogelijk:

  • Door de gemeenschap aangestuurde integratie van ondervertegenwoordigde talen

  • Digitale toegang voor mondelinge en bedreigde talen

  • Onderzoek naar spraaktechnologie in taalkundig diverse contexten

Cruciaal is dat Meta overal de nadruk legt op ethische overwegingen, waarbij ze pleit voor open-sourcedeelname en samenwerking met moedertaalsprekende gemeenschappen.

“Geen enkel model kan ooit op voorhand anticiperen en alle talen van de wereld omvatten”, stelt het Omnilingual ASR-artikel, “maar Omnilingual ASR maakt het voor gemeenschappen mogelijk om de herkenning uit te breiden met hun eigen gegevens.”

Toegang tot de Hulpmiddelen

Alle bronnen zijn nu beschikbaar op:

Wat dit betekent voor ondernemingen

Voor bedrijfsontwikkelaars, vooral degenen die actief zijn in meertalige of internationale markten, verlaagt Omnilingual ASR de drempel voor het inzetten van spraak-naar-tekstsystemen bij een breder scala aan klanten en regio’s aanzienlijk.

In plaats van te vertrouwen op commerciële ASR-API’s die slechts een beperkt aantal talen met veel hulpbronnen ondersteunen, kunnen teams nu een open source-pijplijn integreren die kant-en-klaar meer dan 1.600 talen omvat, met de optie om deze uit te breiden naar duizenden extra talen via zero-shot learning.

Deze flexibiliteit is vooral waardevol voor bedrijven die werkzaam zijn in sectoren als spraakgestuurde klantenondersteuning, transcriptiediensten, toegankelijkheid, onderwijs of civiele technologie, waar dekking van de lokale taal een concurrentie- of regelgevingsvereiste kan zijn. Omdat de modellen worden vrijgegeven onder de tolerante Apache 2.0-licentie, kunnen bedrijven deze zonder beperkende voorwaarden verfijnen, implementeren of integreren in bedrijfseigen systemen.

Het vertegenwoordigt ook een verschuiving in het ASR-landschap: van gecentraliseerde, cloud-gated aanbiedingen naar door de gemeenschap uitbreidbare infrastructuur. Door meertalige spraakherkenning toegankelijker, aanpasbaarder en kosteneffectiever te maken, opent Omnilingual ASR de deur naar een nieuwe generatie zakelijke spraaktoepassingen die zijn gebouwd rond taalkundige inclusie in plaats van taalkundige beperking.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in