Home Nieuws Cohere kraakt verliesloze kwantisering en native citaten met het eerste volledige Apache...

Cohere kraakt verliesloze kwantisering en native citaten met het eerste volledige Apache 2.0-gelicentieerde open model Command A+

5
0
Cohere kraakt verliesloze kwantisering en native citaten met het eerste volledige Apache 2.0-gelicentieerde open model Command A+

Canadees AI-lab Samenhangen onlangs golven gemaakt door aankondiging van een fusie met de Duitse AI-startup Aleph Alphamaar nu heeft het zelfs nog meer in petto voor ondernemingsbouwers over de hele wereld: vandaag de dag, het bedrijf mede opgericht door voormalig Googler en co-auteur van “Attention Is All You Need”, Aidan Gomez onthuld Commando A+een sterk geoptimaliseerd taalmodel met 218 miljard parameters, speciaal ontworpen voor complex redeneren, multimodale documentverwerking en agentische workflows.

Het belangrijkste aspect van de release zijn niet alleen de mogelijkheden van het model; het is de toegankelijkheid ervan.

Door de modelgewichten los te laten op de populaire repository voor het delen van AI-code Hugging Face onder een zeer tolerante Apache 2.0 open-source licentie – een primeur voor het bedrijf, aldus een bericht van Gomez, nu CEO van Cohere, over X – Cohere waagt een berekende gok op ‘soevereine AI’ – de stelling dat bedrijven, overheden en ontwikkelaars de mogelijkheid moeten hebben om grensverleggende AI volledig binnen hun eigen veilige omgevingen uit te voeren, te controleren en aan te passen, zonder dat dit ten koste gaat van de prestaties.

Schaarse architectuur met extreme kwantisering

Op architectonisch niveau vertegenwoordigt Command A+ een belangrijke evolutie ten opzichte van de eerdere compacte modellen van Cohere. Het is een Sparse Mixture-of-Experts (MoE)-transformator die alleen voor een decoder geschikt is.

Hoewel het model een relatief bescheiden totaal van 218 miljard parameters herbergt, zijn er nog minder – slechts 25 miljard – actief tijdens een bepaalde generatiestap. Het is een veel lichtere footprint en vereist veel minder computerbronnen om inferentie te kunnen uitvoeren (waarbij het model in productieomgevingen aan eindgebruikers of via agenten wordt aangeboden) dan de eigen Amerikaanse giganten zoals OpenAI’s GPT-5.5 en Anthropic’s Claude Opus 4.7, die door externe waarnemers geschat op biljoenen parameters.

Deze spaarzame architectuur is de sleutel tot de efficiëntie van het model. In eenvoudige bewoordingen stuurt een MoE-model inkomende vragen alleen naar de specifieke ‘expert’ neurale netwerken die het meest geschikt zijn om ze af te handelen, waardoor de rest van het model inactief blijft.

Dit is een bekende formulering die tegenwoordig door de meeste toonaangevende LLM’s wordt gevolgd, waardoor modellen de enorme kennisbasis en genuanceerde redeneermogelijkheden van een gigant kunnen behouden, maar met de hogere snelheden en lagere reken- en energievereisten van een veel kleiner model, omdat slechts een fractie van de parameters ooit op enig moment wordt geactiveerd.

Maar waar Cohere nog een extra stap heeft gezet voor Command A+, is dat het zich sterk heeft gericht op hardware-efficiëntie door middel van kwantisering – een proces dat de geheugenvoetafdruk van het model comprimeert door de precisie van zijn parameters.

Command A+ is beschikbaar in 16-bits (BF16), 8-bits (FP8) en een sterk gecomprimeerd 4-bits (W4A4) formaat.

De W4A4-kwantisering is het technische middelpunt van deze release. Doorgaans lijden redeneermodellen onder een buitensporige ‘kwantiseringsbelasting’, waarbij het comprimeren van het model leidt tot zichtbare regressies bij het oplossen van complexe problemen.

Cohere verzachtte dit door de MoE-experts alleen te kwantificeren tot 4-bit, terwijl het met volledige precisie bijhouden van de kritische aandachtsbanen, aangevuld met een techniek genaamd Quantization-Aware Distillation.

Het resultaat is een vrijwel verliesloze compressie waardoor dit enorme model kan worden uitgevoerd op een enkele NVIDIA Blackwell B200 GPU of slechts twee NVIDIA H100 GPU’s.

De snelheidswinst is even opmerkelijk. Volgens prestatiegegevens die door het bedrijf zijn vrijgegeven, bereikt de W4A4-kwantisering bij lage gelijktijdigheid 375 tokens per seconde (TOPS) met een Time-to-First-Token (TTFT) latentie van slechts 113 milliseconden, wat neerkomt op een toename van 63% in uitvoersnelheid en een reductie van 17% in latentie vergeleken met het vorige Command A Reasoning-model.

Bovendien heeft Cohere de tokenizer van het model gereviseerd. Tokenizers splitsen tekst op in de fragmenten die AI-modellen verwerken. De nieuwe tokenizer is sterk geoptimaliseerd voor wereldwijd zakelijk gebruik en biedt native ondersteuning voor 48 talen.

Belangrijker nog: het verbetert de tokenisatie-efficiëntie voor niet-Europese talen dramatisch, het verminderen van het aantal tokens dat nodig is om reacties in het Arabisch te genereren met 20%, Japans met 18% en Koreaans met 16%. Omdat de inferentiekosten per token worden berekend, vertaalt dit zich direct in lagere operationele kosten voor wereldwijde, meertalige of niet-Engelse implementaties.

Agentische workflows en hoge benchmarks op wiskunde, gespecialiseerde gebieden

Terwijl de pure snelheid en omvang de implementatie bepalen, wordt de bruikbaarheid van een model bepaald door de productmogelijkheden ervan. Command A+ is speciaal gebouwd voor ‘agentische’ taken: workflows waarbij de AI autonoom of semi-autonoom werkt, externe tools gebruikt, databases doorzoekt en informatie in meerdere stappen synthetiseert.

De benchmarksprongen ten opzichte van de vorige generatie zijn groot.

Cohere Command A+ benchmarkvergelijkingstabellen. Krediet: Cohere

Op 𝜏²-Bench Telecom, dat complexe redeneringen test, steeg het model van een score van 37% naar 85%. Op Terminal-Bench Hard, dat de prestaties van agentische coderingen meet, steeg dit van 3% naar 25%. In complexe wiskunde scoorde het 90% op AIME 25, een stijging ten opzichte van 57%.

Command A+ overtreft zijn gewichtsklasse (25B actieve parameters) in puur redeneren en wiskunde, en concurreert rechtstreeks met veel grotere modellen zoals DeepSeek V4 Pro op wiskundige benchmarks. Wat diepgaande agentische codering en algemene grootschalige indexering van inlichtingen betreft, loopt het momenteel echter achter op de nieuwste generaties van Chinese open source-rivalen zoals Diepzoeken, Z.ai (GLM)En MiniMax.

Dat gezegd hebbende, negeert het vergelijken ervan direct de kernwaardepropositie van Cohere: hardware-efficiëntie.

Naast de benchmarks introduceert Command A+ diepgaande integraties voor bedrijfsvertrouwen en -verificatie. Het model ondersteunt het gebruik van conversatietools via standaard chatsjablonen, waardoor ontwikkelaars het naadloos kunnen verbinden met interne API’s, zoekmachines of SQL-databases.

Cruciaal is dat Command A+ beschikt over het genereren van native citaten. Wanneer Command A+ informatie ophaalt uit een extern hulpmiddel, synthetiseert het niet alleen het antwoord; het genereert expliciete ‘aardingsbereiken’. Met behulp van speciale tags die in de uitvoer zijn ingebed, kan de model koppelt elke feitelijke claim die het maakt direct aan het specifieke brondocument of de databaserij het haalde de informatie eruit.

Voor bedrijven die sterk gereguleerd zijn in sectoren zoals de financiële sector, de gezondheidszorg of de juridische sector, is deze traceerbaarheid het verschil tussen een interessant prototype en een productieklare applicatie. Als een gebruiker om een ​​dagelijks verkooprapport vraagt, zal het model het totale verkoopbedrag weergeven en expliciet het databasequeryresultaat citeren dat dat aantal opleverde, waardoor het risico op onopgemerkte hallucinaties wordt geminimaliseerd.

Bovendien is Command A+ volledig multimodaal en kan zowel tekst als afbeeldingen native verwerken binnen het enorme invoercontextvenster van 128K, waardoor het zeer effectief is voor complexe documentverwerking, zoals het analyseren van gescande facturen, grafieken of technische handleidingen.

Het eerste Cohere AI-model met volledige Apache 2.0-licentie

In het huidige AI-landschap is ‘open source’ een beladen term geworden. Veel toonaangevende AI-bedrijven geven hun modelgewichten vrij onder restrictieve commerciële licenties of een beleid voor acceptabel gebruik dat grote ondernemingen expliciet verbiedt de modellen voor commerciële doeleinden te gebruiken, of verbiedt dat de modellen worden gebruikt om concurrerende AI-systemen te trainen.

De eerdere modellen van Cohere, inclusief Commando R En Commando R+zijn uitgebracht onder een CC-BY-NC 4.0-licentie (Creative Commons NonCommercial). Hoewel hun modelgewichten openstonden voor onderzoekers en ontwikkelaars om te downloaden, eraan te sleutelen en te evalueren, was het ten strengste verboden om ze voor commerciële doeleinden te gebruiken zonder een afzonderlijke bedrijfslicentie van Cohere aan te schaffen of de application programming interface (API) te gebruiken, vergelijkbaar met de regeling die veel bedrijven gebruiken voor toegang tot AI-modellen van OpenAI, Anthropic, Google en andere toonaangevende laboratoria.

Cohere heeft zijn aanpak veranderd door Command A+ uit te brengen onder de Apache 2.0-licentie. Dit is een cruciaal onderscheid voor de ontwikkelaarsgemeenschap. Apache 2.0 is een echte, OSI-goedgekeurde open-sourcelicentie. Het stelt iedereen – van onafhankelijke ontwikkelaars tot Fortune 500-bedrijven – in staat het model te gebruiken, aan te passen, te distribueren en te commercialiseren zonder licentiekosten te betalen of zich te houden aan beperkende niet-concurrentiebedingen.

Als Gomez schreef op Xwerd de beslissing verdedigd door mede-oprichter van Cohere, Nick Frosst, die een twee minuten durend overzicht plaatste waarin hij het ‘het beste model dat we ooit hebben uitgebracht’ noemde.

Voor de onderneming betekent deze licentie totale leveranciersonafhankelijkheid. Een bedrijf kan de Command A+-gewichten downloaden, deze afstemmen op zeer geheime interne gegevens en deze inzetten op hun eigen privéservers of air-gapped netwerken. Ze zijn niet gebonden aan de infrastructuur van Cohere, prijswijzigingen of API-uptime. Het is de ultieme realisatie van soevereine AI.

De release kreeg onmiddellijk veel aandacht in het ecosysteem van AI-ontwikkelaars, sterk gedreven door de integratie van het eerste uur met grote open-source inferentieframeworks zoals Hugging Face en vLLM.

Wat is het volgende?

De release van Command A+ markeert de volwassenheid van het open-source AI-ecosysteem. Door redeneren op grensniveau, robuust gebruik van agentische tools en multimodale mogelijkheden te combineren met een architectuur die specifiek is ontworpen voor hardware-efficiëntie, verandert Cohere de calculus voor de adoptie van zakelijke AI.

De behoefte aan enorme, gecentraliseerde rekenclusters is al lange tijd een knelpunt voor bedrijven die prioriteit geven aan gegevensprivacy en kostenbeheersing. Door de toegang tot een model van dit kaliber onder een echte open-sourcelicentie te democratiseren, heeft Cohere de zakelijke markt precies gegeven waar deze om vroeg: de kracht van de cloud, die veilig kan draaien in de serverruimte verderop in de gang.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in