Home Nieuws De architectuur van Bolmo maakt efficiënte LM-training op byteniveau mogelijk zonder dat...

De architectuur van Bolmo maakt efficiënte LM-training op byteniveau mogelijk zonder dat dit ten koste gaat van de kwaliteit

6
0
De architectuur van Bolmo maakt efficiënte LM-training op byteniveau mogelijk zonder dat dit ten koste gaat van de kwaliteit

Bedrijven die tokenizer-vrije meertalige modellen willen, wenden zich steeds meer tot taalmodellen op byteniveau om de broosheid van luidruchtige tekst of tekst met weinig bronnen te verminderen. Om die niche aan te boren – en deze op grote schaal praktisch te maken – introduceerde het Allen Institute of AI (Ai2) Bolmoeen nieuwe familie modellen die gebruik maken van zijn Olmo 3 modellen door ze te ‘bytefiyen’ en hun ruggengraat en capaciteiten te hergebruiken.

Het bedrijf lanceerde twee versies, Bolmo 7B en Bolmo 1B, die “het eerste volledig open taalmodel op byte-niveau” zijn. volgens Ai2. Het bedrijf zei dat de twee modellen concurrerend presteerden met andere byte-niveau- en karaktergebaseerde modellen, en deze in sommige gevallen zelfs overtroffen.

Taalmodellen op byteniveau werken rechtstreeks op onbewerkte UTF-8-bytes, waardoor er geen vooraf gedefinieerde woordenschat of tokenizer nodig is. Hierdoor kunnen ze betrouwbaarder omgaan met spelfouten, zeldzame talen en onconventionele tekst: belangrijke vereisten voor moderatie, edge-implementaties en meertalige applicaties.

Voor ondernemingen die AI in meerdere talen, luidruchtige gebruikersinvoer of beperkte omgevingen inzetten, bieden tokenizer-vrije modellen een manier om de operationele complexiteit te verminderen. Bolmo van Ai2 is een poging om die aanpak op grote schaal praktisch te maken – zonder opnieuw te hoeven trainen.

Hoe Bolmo werkt en hoe het is gebouwd

Ai2 zei dat het de Bolmo-modellen heeft getraind met behulp van de Dolma 3-datamix, die heeft geholpen bij het trainen ervan Vlaggenschipmodellen van Olmoen enkele open-codedatasets en gegevens op tekenniveau.

Het bedrijf zei dat het zijn doel is “een reproduceerbare, inspecteerbare blauwdruk te bieden voor het byteificeren van sterke subwoordtaalmodellen op een manier die de gemeenschap kan overnemen en uitbreiden.” Om dit doel te bereiken zal Ai2 zijn controlepunten, code en een vol papier om andere organisaties te helpen modellen op byteniveau te bouwen bovenop hun Olmo-ecosysteem.

Omdat het duur kan worden om een ​​model op byteniveau helemaal opnieuw te trainen, kozen Ai2-onderzoekers in plaats daarvan voor een bestaand Olmo 3 7B-controlepunt om in twee fasen te byteificeren.

In de eerste fase bevroor Ai2 de Olmo 3-transformator zodat ze alleen bepaalde onderdelen trainen, zoals de lokale encoder en decoder, de grensvoorspeller en de taalmodelleringskop. Dit is ontworpen om “goedkoop en snel” te zijn en vereist slechts 9,8 miljard tokens.

In de volgende fase wordt het model gedeblokkeerd en getraind met extra tokens. Ai2 zei dat de aanpak op byteniveau Bolmo in staat stelt de knelpunten in de woordenschat te vermijden die traditionele subwoordmodellen beperken.

Sterke prestaties onder zijn collega’s

Taalmodellen op byteniveau zijn niet zo mainstream als kleine taalmodellen of LLM’s, maar dit is een groeiend onderzoeksgebied. Meta heeft zijn BLT-architectuur vrijgegeven onderzoek van vorig jaar, met als doel een model aan te bieden dat robuust is, ruwe gegevens verwerkt en niet afhankelijk is van vaste vocabulaires.

Andere onderzoeksmodellen in deze ruimte inclusief ByT5, Stanfords MrT5En Hond.

Ai2 evalueerde Bolmo met behulp van zijn evaluatiesuite, die wiskunde, STEM-redeneren, het beantwoorden van vragen, algemene kennis en code omvatte.

Bolmo 7B liet sterke prestaties zien, presteerde beter dan karaktergerichte benchmarks zoals CUTE en EXECUTE, en verbeterde ook de nauwkeurigheid ten opzichte van de basis-LLM Olmo 3.

Bolmo 7B presteerde beter dan modellen van vergelijkbare grootte op het gebied van coderen, wiskunde, meerkeuzevragen en begrip op karakterniveau.

Waarom bedrijven kunnen kiezen voor modellen op byteniveau

Bedrijven vinden waarde in een hybride modelstructuur, waarbij gebruik wordt gemaakt van een mix van modellen en modelgroottes.

Ai2 pleit ervoor dat organisaties ook modellen op byteniveau moeten overwegen, niet alleen vanwege de robuustheid en het meertalige begrip, maar omdat deze “op natuurlijke wijze aansluiten op een bestaand model-ecosysteem.”

“Een belangrijk voordeel van de dynamische hiërarchische opzet is dat compressie een schakelbare knop wordt”, aldus het bedrijf.

Voor bedrijven die al heterogene modelstapels gebruiken, suggereert Bolmo dat modellen op byteniveau misschien niet langer puur academisch zijn. Door een sterk subwoordmodel toe te passen in plaats van helemaal opnieuw te trainen, signaleert Ai2 een pad met een lager risico voor organisaties die robuustheid willen zonder de bestaande infrastructuur op te geven.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in