De M1 MacBook Pro is een oud maar nog steeds capabel apparaat in 2026.
Kyle Kucharski/ZDNET
Volg ZDNET: Voeg ons toe als voorkeursbron op Google.
De belangrijkste conclusies van ZDNET
- Ollama maakt het vrij eenvoudig om open-source LLM’s te downloaden.
- Zelfs kleine modellen kunnen pijnlijk langzaam werken.
- Probeer dit niet zonder een nieuwe machine met 32 GB RAM.
Als verslaggever die al ruim tien jaar verslag doet van kunstmatige intelligentie, heb ik altijd geweten dat het runnen van kunstmatige intelligentie allerlei computertechnische uitdagingen met zich meebrengt. Om te beginnen worden de grote taalmodellen steeds groter en blijven ze steeds meer DRAM-geheugen eisen om hun model-‘parameters’ of ‘neurale gewichten’ uit te voeren.
Ook: Hoe u een LLM op MacOS installeert (en waarom u dat zou moeten doen)
Ik wist dat allemaal, maar ik wilde het uit de eerste hand ervaren. Ik wilde een groot taalmodel op mijn thuiscomputer uitvoeren.
Nu kan het downloaden en uitvoeren van een AI-model veel werk met zich meebrengen om de ‘omgeving’ op te zetten. Dus, geïnspireerd door de berichtgeving van mijn collega Jack Wallen over de open-sourcetool Ollama, heb ik de MacOS-binaire versie van Ollama gedownload als mijn toegangspoort tot lokale AI.
Ollama is relatief eenvoudig te gebruiken en heeft goed werk geleverd door de integratie met LangChain, Codex en meer, wat betekent dat het een hulpmiddel wordt om veel aspecten van AI samen te brengen, wat spannend is.
Redenen om het lokaal te houden
Het lokaal uitvoeren van LLM’s, in plaats van alleen maar online ChatGPT of Perplexity in te typen, heeft veel aantrekkingskracht, niet alleen op programmeurs, maar op elke informatiewerker.
Ten eerste zul je als informatiewerker aantrekkelijker zijn op de arbeidsmarkt als je zoiets kunt doen als een model downloaden en uitvoeren, in plaats van in de online prompt te typen, zoals elke gratis gebruiker van ChatGPT. We hebben het hier over fundamentele professionele ontwikkeling.
Ten tweede kunt u met een lokaal exemplaar van een LLM voorkomen dat uw gevoelige gegevens uw machine verlaten. Dat zou van duidelijk belang moeten zijn voor elke informatiewerker, niet alleen voor codeerders. In mijn geval was het doel van mijn project om lokale modellen te gebruiken als een manier om mijn eigen schat aan artikelen door de jaren heen te verzamelen, als een soort rapport over wat ik heb geschreven, inclusief dingen die ik misschien vergeten ben. Ik vond het een leuk idee om alle bestanden lokaal te houden in plaats van ze naar een cloudservice te uploaden.
Ook: Ik heb als beginner geprobeerd een app te coderen. Dit is wat Cursor en Replit mij hebben geleerd
Ten derde kunt u de kosten vermijden die door OpenAI, Google, Anthropic en de rest in rekening worden gebracht. Zoals ik onlangs schreef, zullen de prijzen voor het online gebruik van LLM’s stijgen, dus dit is een goed moment om na te denken over manieren om het grootste deel van uw werk offline te doen, op uw eigen machine, waarbij de meter niet constant loopt.
(Openbaarmaking: Ziff Davis, het moederbedrijf van ZDNET, heeft in april 2025 een rechtszaak aangespannen tegen OpenAI en beweerde dat het de auteursrechten van Ziff Davis had geschonden bij het trainen en exploiteren van zijn AI-systemen.)
Ten vierde heb je veel meer controle. Als u bijvoorbeeld wilt programmeren, kunt u LLM’s aanpassen, ook wel ‘fine-tuning’ genoemd, om meer gerichte resultaten te krijgen. En u kunt verschillende lokaal geïnstalleerde tools gebruiken, zoals LangChain, de Claude Code-tool van Anthropic, de Codex-coderingstool van OpenAI en meer.
Ook: Waarom u in 2026 meer gaat betalen voor AI, en 3 geldbesparende tips om te proberen
Zelfs als u alleen taken van informatiewerkers wilt uitvoeren, zoals het genereren van rapporten, kunt u dit met een lokale cache met documenten of een lokale database met meer controle doen dan dingen naar de bot uploaden.
Minimaal blank metaal
Ik begon dit experiment met een minimale machine, voor zover er nodig is om een LLM te draaien. Ik wilde weten wat er zou gebeuren als iemand die niet voortdurend nieuwe machines koopt, dit thuis zou proberen te doen op dezelfde computer die hij voor dagelijkse taken gebruikt.
Mijn MacBook Pro is drie jaar oud en heeft 16 gigabyte RAM en een terabyte harde schijf die voor driekwart vol is, en draait niet op de nieuwste MacOS, maar op MacOS Sonoma. Het is het model uit 2021, modelnummer MK193LL/A, en hoewel hij van topklasse was toen ik hem in januari 2023 bij Best Buy kocht tijdens een uitverkoop, was hij toen al het beste model van gisteren aan het worden.
Ook: 5 redenen waarom ik lokale AI op mijn desktop gebruik – in plaats van ChatGPT, Gemini of Claude
Ik weet het, ik weet het: dit gaat verder dan de typische levensduur van machines en buiten ieders afschrijvingsschema. Desalniettemin was de MacBook destijds een geweldige upgrade en bleef hij dagelijks uitstekend presteren voor de typische taken van informatiewerkers: agenda, heel veel e-mail, heel veel websites, postproductie van video’s, audio-opname van podcasts, en meer. Ik heb nooit klachten. Hé, als het niet kapot is, toch?
De vraag was dus: hoe zou deze eerbiedwaardige maar nog steeds machtige machine omgaan met een heel ander, nieuw soort werklast?
Ollama starten
Het opstartscherm van Ollama ziet eruit als ChatGPT, met een vriendelijke prompt om in te typen, een “plus”-teken om een document te uploaden en een vervolgkeuzemenu met modellen die je lokaal kunt installeren, inclusief populaire modellen zoals Qwen.
Als u gewoon begint te typen bij de prompt, probeert Ollama automatisch het model te downloaden dat in het vervolgkeuzemenu wordt weergegeven. Typ dus niet, tenzij u voor modelroulette wilt gaan.
In plaats daarvan bekeek ik de modellen in de vervolgkeuzelijst en besefte ik dat sommige van deze modellen niet lokaal waren: ze bevonden zich in de cloud. Ollama beheert een cloudservice als u de infrastructuur ervan wilt in plaats van die van uzelf. Dat kan handig zijn als je veel grotere modellen wilt gebruiken die je eigen infrastructuur te zwaar belasten.
Volgens de prijspagina biedt Ollama enige toegang tot de cloud in het gratis account, met de mogelijkheid om meerdere cloudmodellen uit te voeren die vallen onder het ‘Pro’-abonnement voor $ 20 per maand, en zelfs meer gebruik in het ‘Max’-abonnement voor $ 100 per maand.
Ook: Deze app maakt het gebruik van Ollama lokale AI op MacOS-apparaten zo eenvoudig
Ik bleef bij lokaal actieve opties en besloot de bredere lijst met modellen te bekijken in de modelmap die door Ollama wordt onderhouden.
Willekeurig koos ik voor glm-4.7-flash, van de Chinese AI-startup Z.ai. Met een gewicht van 30 miljard ‘parameters’ of neurale gewichten zou GLM-4.7-flash volgens de huidige normen een ‘klein’ groot taalmodel zijn, maar niet klein, aangezien er open-sourcemodellen zijn met minder dan een miljard parameters. (Een miljard parameters was nog niet zo lang geleden groot!)
De map geeft u de terminalopdrachten om het gekozen model van de Mac-terminal te downloaden, gewoon door te kopiëren en plakken vanaf de prompt, zoals:
ollama voert glm-4.7-flash uit
Houd rekening met schijfruimte. Glm-4.7-flash weegt 19 gigabyte aan schijfgebruik, en onthoud: dat is klein!
Mijn ervaring is dat het downloaden van modellen redelijk snel lijkt, maar niet razendsnel. Op een gigabit-snelheid kabelmodem naar mijn thuiskantoor, geleverd door Spectrum in New York City, downloadde het model op een gegeven moment met een snelheid van 45 megabytes per seconde, hoewel de doorvoersnelheid later daalde.
Kennismaken met het model
Mijn eerste vraag was redelijk eenvoudig: “Wat voor een groot taalmodel ben jij?”
Ik zat een tijdje te kijken terwijl de eerste paar personages als antwoord verschenen: “(Gloeilamppictogram) Denken – Laat me analyseren wat mij tot een maakt” en dat was het.
Ook: Mijn go-to LLM-tool heeft zojuist een supereenvoudige Mac- en pc-app voor lokale AI uitgebracht – waarom je het zou moeten proberen
Tien minuten later was het nog niet veel verder gekomen.
Laat me analyseren wat mij tot een groot taalmodel maakt en hoe ik dit aan de gebruiker kan uitleggen.
Ten eerste moet ik nadenken over mijn fundamentele aard als AI-systeem. Ik moet uitleggen dat ik ontworpen ben om menselijke taal te begrijpen en te genereren via patronen in grote datasets. De sleutel is om duidelijk te zijn
En alles op de Mac was merkbaar traag geworden.
Vijfenveertig minuten later produceerde glm-4.7-flash nog steeds gedachten over het denken: “Laat me deze uitleg zo structureren dat ik eerst duidelijk zeg…”, enzovoort.
Gevangen in snelle kruip
Een uur en 16 minuten later – het model ‘dacht’ gedurende 5.197,3 seconden – had ik eindelijk antwoord op mijn vraag over wat voor soort taalmodel glm-4.7-flash was. Het antwoord bleek in al die tijd niet zo interessant. Het vertelde me niet veel over glm dat ik zelf niet had kunnen raden, noch iets belangrijks over het verschil tussen glm en andere grote taalmodellen:
Ik dacht dat ik op dit punt klaar was met glm. Helaas biedt Ollama geen instructies voor het verwijderen van een model nadat het lokaal is geïnstalleerd. De modellen worden bewaard in een verborgen map “.ollama” in de huidige gebruikersmap op MacOS, in een andere map genaamd “models”. In de map models bevinden zich twee mappen: ‘blobs’ en ‘manifests’. Het grootste deel van een model bevindt zich in de map blobs. Binnen de manifesten bevindt zich een map “bibliotheek” met daarin een map met de naam voor elk model dat u hebt gedownload, en daarin een map “nieuwste”.
Met behulp van de terminal heb ik de inhoud van blobs verwijderd en de inhoud van elke modelmap verwijderd, en dat loste de kwestie op. (Jack liet me later weten dat het terminalcommando om welk model dan ook te verwijderen “ollama rm
Jack had ook het recente open-sourcemodel van OpenAI, gpt-oss, aanbevolen in de vorm van 20 miljard parameters, ’20b’, waarvan hij zei dat het lokaal aanzienlijk sneller werkte dan andere die hij had geprobeerd. Dus ik ging ernaast in de directory.
Ook: Dit is de snelste lokale AI die ik heb geprobeerd, en het komt niet eens in de buurt – hoe je het kunt krijgen
Deze keer, na ongeveer zes minuten, produceerde gpt-oss:20b (in een tempo dat niet slakachtig is, maar ook niet snel) het antwoord dat het “ChatGPT is, mogelijk gemaakt door de GPT-4-familie van OpenAI”, enzovoort.
Dat antwoord werd gevolgd door een mooie tabel met details. (Vreemd genoeg vertelde gpt-oss:20b me dat het “ruwweg 175 miljard parameters” had, wat suggereert dat gpt-oss:20b zijn eigen 20b-identiteit niet helemaal begrijpt.)
Voor een simpele opdracht was dit in ieder geval prima. Maar het was al duidelijk dat ik problemen zou krijgen met iets anders dat ambitieuzer was. Het gevoel van wachten op het antwoord ging zo langzaam – een soort snelle griezel, zou je kunnen zeggen – dat ik het niet durfde te wagen er nog meer complexiteit aan toe te voegen, zoals het uploaden van een hele reeks geschriften.
We hebben een nieuwere machine nodig
OpenAI’s daadwerkelijke ChatGPT online service (met GPT5.2) vertelt me dat een minimale configuratie voor een computer met gpt-oss:20b in werkelijkheid 32 gigabyte DRAM is. Het M1 Pro-silicium van de MacBook heeft een geïntegreerde GPU, en ChatGPT wees er goedkeurend op dat Ollama de gpt-oss:20b-versie heeft voorzien van ondersteuning voor de Mac GPU, een bibliotheek die bekend staat als een “llama.cpp-backend.”
Ook: Ik heb de enige agentische browser geprobeerd die lokale AI draait – en heb maar één nadeel gevonden
Dus alles zou in orde moeten zijn, maar ik heb echt meer DRAM nodig dan alleen 16 optredens. En ik moet overstappen van de nu vijf jaar oude M1 naar een M4 of M5. Het is voor mij nogal fascinerend, na dertig jaar schrijven over computers, dat we voor een informatiewerker spreken over 32 gigabyte als de minimaal redelijke configuratie.
Zoals ik onlangs al zei, schiet de prijs van DRAM omhoog omdat al die clouddatacenters steeds meer DRAM verbruiken om grote taalmodellen uit te voeren. Dus ik ben het tegen de cloudleveranciers, zou je kunnen zeggen, en ik zal waarschijnlijk de creditcard gebruiken om over te stappen op een nieuwe computer. (Apple geeft me ongeveer $ 599 voor mijn M1 MacBook als inruil.)
Hoewel mijn beginnende lokale Ollama-inspanning geen succes opleverde, heeft het mij een hernieuwde waardering gegeven voor hoe geheugenintensief AI is. Dat wist ik altijd al door mijn jarenlange verslaggeving over AI, maar ik voel het nu tot in mijn botten, dat gevoel wanneer het antwoord op de prompt een eeuwigheid duurt om over het scherm te scrollen.


