Home Nieuws TII’s Falcon H1R 7B kan modellen tot 7x zijn grootte overtreffen –...

TII’s Falcon H1R 7B kan modellen tot 7x zijn grootte overtreffen – en hij is (meestal) open

7
0
TII’s Falcon H1R 7B kan modellen tot 7x zijn grootte overtreffen – en hij is (meestal) open

De afgelopen twee jaar was de heersende logica in generatieve AI er een van brute kracht: als je beter redeneren wilt, heb je een groter model nodig.

Terwijl ‘kleine’ modellen (onder de 10 miljard parameters) capabele gesprekspartners zijn geworden, zijn ze historisch gezien afgebrokkeld als hen werd gevraagd logische deducties in meerdere stappen of complexe wiskundige bewijzen uit te voeren.

Tegenwoordig daagt het Technology Innovation Institute (TII) in Abu Dhabi deze opschalingswet uit de release van Falcon H1R 7B.

Door de pure Transformer-orthodoxie te verlaten ten gunste van een hybride architectuur, beweert TII een model van 7 miljard parameters te hebben gebouwd dat niet alleen concurreert met, maar ook beter presteert dan de concurrentie, bijna 7x zo groot – inclusief de 32B- en 47B-varianten van Alibaba’s Qwen en Nvidia’s Nemotron.

De release markeert een significante verschuiving in het open-weight-ecosysteem, waarbij het slagveld wordt verplaatst van het tellen van ruwe parameters naar architecturale efficiëntie en het schalen van gevolgtrekkingstijd.

De volledige modelcode is nu beschikbaar bij Hugging Face en kan door individuen worden getest in een live demo-inferentie op Valk-chat (een chatbot-ervaring). TII bracht verder een ogenschijnlijk behoorlijk uitgebreide versie uit technisch rapport ook over de aanpak en trainingsmethodologie voor Falcon H1 7B.

Verder gaan dan de fundamentele LLM-technologie, de Transformer

Het bepalende kenmerk van de Falcon H1R 7B is de ‘hybride’ ruggengraat. De meeste moderne LLM’s vertrouwen uitsluitend op de Transformer-architectuur, die voorspelbaar schaalt, maar te kampen heeft met hoge geheugenkosten bij het verwerken van lange reeksen.

Falcon H1R 7B integreert Mamba, een state-space model (SSM) architectuur, naast standaard Transformer-aandachtslagen.

Oorspronkelijk ontwikkeld door onderzoekers Albert Gu en Tri Dao aan de Carnegie Mellon University en Princeton University, werd Mamba voor het eerst geïntroduceerd in de paper “Mamba: lineaire tijdsequentiemodellering met selectieve toestandsruimten“gepubliceerd op 1 december 2023.

De architectuur verwerkt datareeksen anders dan Transformers: terwijl Transformers elk stukje data met elk ander stuk vergelijken (kwadratische schaling), verwerkt Mamba tokens opeenvolgend, waardoor het enorme hoeveelheden informatie kan verwerken met lineaire schaling en aanzienlijk lagere rekenkosten.

Deze combinatie pakt een van de meest hardnekkige knelpunten aan bij het inzetten van redeneermodellen: de kosten van ‘denken’. Redeneringsmodellen vereisen het genereren van lange ‘gedachteketens’ – stapsgewijze interne monologen – voordat ze tot een antwoord komen. Voor standaard Transformers exploderen deze lange contexten de rekenkosten.

Volgens het technische rapport van TII zorgt de hybride aanpak ervoor dat de Falcon H1R 7B een hoge doorvoer kan behouden, zelfs als de responsduur toeneemt. Bij een batchgrootte van 64 verwerkt het model ongeveer 1.500 tokens per seconde per GPU – bijna het dubbele van de snelheid van het concurrerende Qwen3 8B-model.

Benchmarkprestaties: een verbetering

In de door TII vrijgegeven benchmarks is het verschil tussen de grootte en de prestaties van de Falcon H1R 7B groot. Op de AIME 2025 leaderboard – een rigoureuze test van wiskundig redeneren – scoorde Falcon H1R 7B 83,1%een resultaat dat de traditionele hiërarchie van modelgrootte verstoort.

Falcon-H1R 7B AIME 2025 benchmarkvergelijkingstabel. Krediet: TII

Terwijl het 7B-model natuurlijk enorme eigen grenzen bewandelt GPT-5.2 (99,0%) en Gemini 3 Flitser (97,0%) op de afzonderlijke index voor kunstmatige analyse (gerund door de onafhankelijke organisatie met dezelfde naam, die de Falcon H1R 7B nog niet heeft gebenchmarkt), heeft het de kloof tussen “efficiënte” open gewichten en bedrijfseigen systemen uit het middensegment effectief gedicht.

Kunstmatige analyse AIME 2025 benchmarkvergelijkingstabel

Kunstmatige analyse AIME 2025 benchmarkvergelijkingstabel. Krediet: kunstmatige analyse

  • Grotere ‘denkers’ verslaan: Falcon H1R 7B (83,1%) presteert beter dan de parameter van 15 miljard Apriel-v1.6-Denker (82,7%) en de parameter 32 miljard OLMo 3 Denk na (73,7%), wat de bewering van TII bevestigt dat hybride architecturen grotere Transformers kunnen overtreffen.

  • Het achtervolgen van eigen leiders: Het ligt op zeer korte afstand van Claude 4.5 Sonnet (88,0%) en Amazon Nova 2.0 Lite (88,7%), wat erop wijst dat dit 7B-model voor specifieke, ingewikkelde workflows een levensvatbaar alternatief met lage latentie is voor dure commerciële API’s.

  • Beter presteren dan oudere reuzen: Op basis van deze specifieke redeneermetriek verslaat het op beslissende wijze capabele, maar oudere architecturen Mistral Groot 3 (38,0%) en Vlam 4 Maverick (19,3%), waarbij wordt benadrukt hoe gespecialiseerde redeneertraining (“Deep Think”) belangrijker is geworden dan ruwe schaal voor logische taken.

Andere belangrijke domeinoverwinningen zijn onder meer:

  • Codering: Het model is bereikt 68,6% op de LCB v6-benchmark is een score die volgens TII de hoogste is van alle geteste modellen, inclusief de modellen die vier keer zo groot zijn.

  • Algemene redenering: Hoewel het domineert op het gebied van wiskunde en coderen, blijft de algemene redeneerscore (49,48%) concurrerend, net onder de 14B- en 15B-parametermodellen, maar ruim voor op vergelijkbare 8B-modellen.

Trainingstechnieken

De prestaties van de Falcon H1R 7B zijn niet alleen architectonisch; het komt voort uit een rigoureuze, tweetraps trainingspijplijn die is ontworpen om de redeneringsdichtheid te maximaliseren zonder het aantal parameters op te blazen, aldus Technisch rapport van TII op het model.

Fase 1: Koude start gecontroleerde fijnafstelling (SFT). Het model onderging ‘koude start’-SFT op een samengestelde dataset die werd gedomineerd door wiskunde (56,8% van de tokens) en code (29,8%), met responslengtes die oplopen tot 48.000 tokens.

  • Moeilijkheidsbewuste weging: TII verwierp de standaardpraktijk om alle gegevens gelijk te behandelen. In plaats daarvan pasten ze een wegingsschema toe waarbij ‘harde’ problemen met 1,25x werden verhoogd tot 1,75x, terwijl gemakkelijke problemen werden verlaagd of volledig werden verwijderd om te voorkomen dat ze te veel werden aangepast aan triviale taken.

  • Consistentie voor één docent: Uit ablatiestudies is gebleken dat het mixen van redeneersporen uit meerdere ‘leraar’-modellen feitelijk de prestaties verslechtert als gevolg van tegenstrijdige redeneerstijlen. Daarom koos TII voor een aanpak met één leraar om de coherente interne logica te behouden.

  • Evenwichtige tokennormalisatie: Om de enorme variantie in reekslengtes (korte instructies versus enorme redeneerketens) aan te kunnen, introduceerde het team een ​​Balanced Data-Parallel Token Normalization-strategie. Deze techniek egaliseert de gradiëntbijdrage van elk token over GPU’s, waardoor wordt voorkomen dat rangen met kortere reeksen het verlies destabiliseren – een verandering die tijdens de training een consistente nauwkeurigheidsverbetering van 4-10% opleverde.

Fase 2: Versterkend leren via groepsrelatieve beleidsoptimalisatie (GRPO). Na SFT werd het model verfijnd met behulp van GRPO, een versterkend leeralgoritme dat correcte resultaten beloont zonder dat een afzonderlijk waardemodel nodig is.

  • De “Geen-KL”-verschuiving: In afwijking van de standaard RLHF heeft TII de KL-divergentiestraf (bèta=0) volledig verwijderd. Hierdoor kon het model aanzienlijk afwijken van zijn basis-SFT-beleid, wat een agressieve verkenning van nieuwe redeneerpaden aanmoedigde.

  • Curriculum voor alleen wiskunde: Verrassend genoeg ontdekte TII dat training uitsluitend op wiskundige problemen tijdens de RL-fase betere generalisatie opleverde over alle domeinen – inclusief code en wetenschap – dan gemengde strategieën. Ablaties toonden aan dat ‘alleen-code’-training de codeerscores verbeterde, maar het algemene redeneren schaadde, terwijl op wiskunde gerichte RL de prestaties wereldwijd verbeterde.

TII optimaliseerde het model specifiek voor Test-Time Scaling (TTS), een techniek waarbij een model meerdere redeneerpaden parallel genereert om de beste oplossing te vinden.

Het model maakt gebruik van Deep Think with Confidence (DeepConf), dat gebruikmaakt van de interne betrouwbaarheidsscores van het model om redeneringssporen van lage kwaliteit dynamisch te verwijderen.

  • Adaptief snoeien: Tijdens het genereren initieert het systeem een ​​”opwarmfase” met 16 sporen om een ​​vertrouwensbasislijn vast te stellen. Vervolgens worden daaropvolgende sporen agressief gefilterd, waarbij elke keten wordt beëindigd die onder het 10e percentiel van het basisvertrouwen valt.

  • Efficiëntiewinst: Deze methode creëert een nieuwe Pareto-grens voor implementatie. In benchmarktests behaalde Falcon H1R 7B een nauwkeurigheid van 96,7% op AIME 25, terwijl het tokengebruik met 38% werd verminderd in vergelijking met de DeepSeek-R1-0528-Qwen3-8B-basislijn.

Licenties: open voor commercieel gebruik, maar met voorwaarden

TII heeft volgens de gewoonte de Falcon H1R 7B uitgebracht Falcon LLM-licentie 1.0 gebaseerd op Apache 2.0 – maar met opmerkelijke wijzigingen – vooral: niet procederen tegen TII, en ook om het altijd te erkennen.

Voor ontwikkelaars en startups is de licentie grotendeels tolerant:

  • Royaltyvrij: Gebruikers kunnen het model commercieel uitvoeren, wijzigen en distribueren zonder TII te betalen.

  • Toeschrijving: In elk afgeleid werk (inclusief verfijningen) moet duidelijk het volgende worden vermeld: “(Naam van het werk) is gebouwd met behulp van Falcon LLM-technologie van het Technology Innovation Institute”.

In tegenstelling tot een pure Open Source Initiative (OSI)-licentie omvat de Falcon-licentie echter een strikt Acceptable Use Policy (AUP).

De licentie eindigt automatisch als het model wordt gebruikt om werk te creëren dat in strijd is met de AUP of als de gebruiker een octrooigeschil start tegen TII.

Concreet verbiedt de AUP het gebruik van Falcon H1R 7B of zijn derivaten voor:

  • Overtreding van wetten: elk gebruik dat toepasselijke nationale, federale, provinciale, lokale of internationale wetten of voorschriften schendt.

  • Schade aan minderjarigen of levende wezens: het uitbuiten, schaden of proberen uit te buiten of schade toe te brengen aan minderjarigen of levende wezens.

  • Desinformatie: het genereren of verspreiden van aantoonbaar valse informatie met als doel anderen schade te berokkenen.

  • Intimidatie: het belasteren, kleineren of anderszins lastigvallen van anderen.

De hybride golf: Nvidia, IBM, AI21 en Mistral

TII is niet de enige die op deze hybride toekomst gokt; de industrie evolueert steeds meer naar architecturen die de sterke punten van SSM’s en Transformers combineren.

  • Nvidia debuteerde onlangs met de Nemotron 3-familie op 15 december 2025, waarbij gebruik wordt gemaakt van een hybride mix van experts (MoE) en Mamba-Transformer-ontwerp om efficiënte agentische AI ​​aan te sturen.

  • IBM lanceerde zijn Graniet 4.0-familie op 2 oktober 2025, met behulp van een hybride Mamba-Transformer-architectuur om de geheugenvereisten met meer dan 70% te verminderen, terwijl de hoge prestaties op bedrijfsbenchmarks behouden blijven.

  • AI21 heeft deze weg gevolgd met zijn Jamba-modellen (Joint Attention en Mamba) en heeft de Jamba 1.5-familie op 22 augustus 2024, om agentische AI-mogelijkheden te vergroten via een hybride SSM-Transformer-aanpak.

  • Mistral kwam vroeg de ruimte binnen Codestrale Mamba op 16 juli 2024, een model dat specifiek is geoptimaliseerd voor het sneller en langer genereren van code.

Falcon H1R 7B vertegenwoordigt de nieuwste evolutie in deze trend, specifiek gericht op taken met een compact redeneervermogen in een compacte vormfactor.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in