Home Nieuws Meer dan alleen maar vragen: agentvaardigheden gebruiken in datawetenschap

Meer dan alleen maar vragen: agentvaardigheden gebruiken in datawetenschap

9
0
Meer dan alleen maar vragen: agentvaardigheden gebruiken in datawetenschap

In mijn laatste artikel heb ik gedeeld hoe u MCP kunt gebruiken om LLM’s te integreren in uw volledige data science-workflow. Ik heb ook kort een ander genoemd.

Een vaardigheid is een herbruikbaar pakket met instructies en optionele ondersteunende bestanden. Het helpt AI een terugkerende workflow betrouwbaarder en consistenter af te handelen. Er is minimaal een SKILL.md bestand met metadata (naam en beschrijving) en gedetailleerde instructies voor hoe de vaardigheid zou moeten werken. Mensen bundelen het vaak met scripts, sjablonen en voorbeelden voor standaardisatie en nauwkeurigheid.

Op dit punt vraag je je misschien af ​​waarom we vaardigheden gebruiken in plaats van het geheel rechtstreeks in de Claude Code- of Codex-context te schrijven. Een voordeel is dat vaardigheden ervoor zorgen dat de hoofdcontext korter blijft. AI hoeft in eerste instantie alleen de lichtgewicht metadata te laden; het kan de resterende instructies en gebundelde bronnen lezen wanneer het besluit dat de vaardigheid relevant is. Je kunt een geweldige openbare verzameling vaardigheden vinden op skills.sh.

Laat ik het idee concreter maken met een eenvoudig voorbeeld.


Mijn voorbeeld: wekelijkse visualisatievaardigheid

Context

Sinds 2018 maak ik elke week één visualisatie – als je nieuwsgierig bent: ik heb in dit artikel over mijn reis geschreven. Dit proces is zeer repetitief en kost me meestal ongeveer een uur per week. Daarom vond ik het een geweldige kandidaat voor automatisering met vaardigheden.

Voorbeelden van mijn visualisaties voor 2025

Workflow zonder AI

Hier is mijn wekelijkse routine:

  1. Zoek een dataset die mij interesseert. Websites waar ik meestal naartoe ga voor inspiratie zijn onder meer Tableau Viz of the Day, Voronoi, de Economics Daily van BLS, r/dataisbeautiful, enz.
  2. Open Tableau, speel met de data, vind inzichten en bouw één visualisatie die het verhaal intuïtief vertelt.
  3. Publiceer het op mijn persoonlijke website.

AI-workflow

Hoewel de stap voor het zoeken naar datasets nog steeds handmatig is, heb ik twee vaardigheden gemaakt om stap 2 en 3 te automatiseren:

  • A verhalen vertellen, nl vaardigheid die de dataset analyseert, inzichten identificeert, visualisatietypen suggereert en een interactieve visualisatie genereert die intuïtief, beknopt en op verhalen gericht is.
  • A nl-publiceren vaardigheid die de visualisatie op mijn website publiceert als ingebedde HTML – ik ga deze niet delen, omdat deze zeer specifiek is voor de repostructuur van mijn website.

Hieronder ziet u een voorbeeld waarin ik de storytelling-vaardigheid in Codex Desktop heb geactiveerd. Ik gebruikte dezelfde Apple Health-dataset als de vorige keer, waarbij ik Codex vroeg om de gegevens uit de Google BigQuery-database op te vragen en vervolgens de vaardigheid te gebruiken om een ​​visualisatie te genereren. Het was in staat om inzicht te krijgen in de jaarlijkse trainingstijd versus het aantal verbrande calorieën, en een diagramtype aan te bevelen met redenering en afwegingen.

Screenshot van de vaardigheidstrigger door de auteur (deel 1)
Screenshot van de vaardigheidstrigger door de auteur (deel 2)

Het hele proces duurde minder dan 10 minutenen hier is de output: deze leidt met een op inzicht gebaseerde kop, gevolgd door een duidelijke interactieve visualisatie, kanttekeningen en de gegevensbron. Ik heb de vaardigheid getest met mijn afgelopen wekelijkse visualisaties, en je kunt meer visualisatievoorbeelden vinden in de vaardighedenrepository.

storytelling, namelijk door vaardigheden gegenereerde visualisatie (screenshot door de auteur)

Hoe ik het eigenlijk heb gebouwd

Nu we naar de output hebben gekeken, wil ik je laten zien hoe ik de vaardigheid heb opgebouwd.

Stap 1: Begin met een plan

Zoals ik in mijn laatste artikel deelde, vind ik het leuk om eerst een plan met AI vast te stellen voordat ik het implementeer. Hier begon ik met het beschrijven van mijn wekelijkse visualisatieworkflow en mijn doel om deze te automatiseren. We bespraken de tech-stack, de vereisten en hoe ‘goede’ output eruit zou moeten zien. Dit leidt tot mijn allereerste versie van de vaardigheid.

Het leuke is dat je het SKILL.md-bestand niet handmatig hoeft te maken; vraag gewoon aan Claude Code of Codex om een ​​vaardigheid voor jouw gebruiksscenario te maken, en het kan de eerste versie voor je opstarten (het zal een vaardigheid activeren om een ​​vaardigheid te creëren).

De vaardigheid opbouwen (screenshot door de auteur)
De vaardigheid opbouwen (screenshot door de auteur)

Stap 2: Test en herhaal

Die eerste versie leverde me echter slechts 10% van mijn ideale visualisatieworkflow op: het kon visualisaties genereren, maar de diagramtypen waren vaak niet optimaal, de visuele stijlen waren inconsistent en de belangrijkste punten werden niet altijd benadrukt, enz.

Voor deze resterende 90% waren iteratieve verbeteringen nodig. Hier zijn enkele strategieën die hebben geholpen.

1. Deel mijn eigen kennis

De afgelopen acht jaar heb ik mijn eigen best practices en voorkeuren voor visualisatie ontwikkeld. Ik wilde dat AI deze patronen zou volgen in plaats van elke keer een andere stijl uit te vinden. Daarom deelde ik mijn visualisatiescreenshots samen met mijn stijlbegeleiding. AI was in staat de gemeenschappelijke principes samen te vatten en de vaardigheidsinstructies dienovereenkomstig bij te werken.

Verbeter vaardigheden met mijn kennis (screenshot door de auteur)

2. Onderzoek externe bronnen

Er zijn zoveel bronnen online over een goed ontwerp van datavisualisatie. Een andere nuttige stap die ik zette was om AI te vragen betere visualisatiestrategieën uit bekende bronnen en vergelijkbare publieke vaardigheden te onderzoeken. Dit voegde perspectieven toe die ik zelf niet expliciet had gedocumenteerd, en maakte de vaardigheid schaalbaarder en robuuster.

Verbeter uw vaardigheden met externe bronnen (screenshot van de auteur)
Verbeter vaardigheden met vergelijkbare vaardigheden (screenshot van de auteur)

3. Leer van testen

Testen is essentieel om verbeterpunten te identificeren. Ik heb deze vaardigheid getest met meer dan 15 verschillende datasets om te observeren hoe deze zich gedroeg en hoe de output ervan vergeleek met mijn eigen visualisaties. Dat proces heeft mij geholpen concrete updates voor te stellen, zoals:

  • Standaardiseren van de lettertypekeuzes en lay-out
  • Previews op desktop en mobiel controleren om overlappende labels en annotaties te voorkomen
  • Grafieken begrijpelijk maken, zelfs zonder tooltips
  • Altijd vragen naar de databron en deze koppelen in de visualisatie
Vaardigheidsverbeteringen ten opzichte van testen 1 (screenshots door de auteur)
Vaardigheidsverbeteringen ten opzichte van testen 2 (screenshots door de auteur)
Vaardigheidsverbeteringen ten opzichte van testen 3 (screenshots door de auteur)

Je kunt de nieuwste versie van de storytelling-vaardigheid hier vinden. Speel er gerust mee en laat me weten wat je ervan vindt 🙂


Afhaalrestaurants voor datawetenschappers

Wanneer vaardigheden nuttig zijn

Mijn wekelijkse visualisatieproject is slechts één voorbeeld, maar vaardigheden kunnen nuttig zijn in veel terugkerende data science-workflows. Ze zijn vooral waardevol als je een taak hebt komt herhaaldelijk voor, volgt een semi-gestructureerd proces, is afhankelijk van domeinkennis en is moeilijk in één keer af te handelen.

  • Bijvoorbeeld het onderzoeken van de beweging van statistiek X. Je kent waarschijnlijk al de algemene drijfveren van X, dus je begint altijd met het segmenteren op segmenten A/B/C en het controleren van de upfunnel-statistieken D en E. Dit is precies het proces dat je in een vaardigheid kunt verpakken, zodat AI hetzelfde analytische draaiboek volgt en de hoofdoorzaak voor je identificeert.
  • Nog een voorbeeld: stel dat u van plan bent een experiment uit te voeren in regio A, en dat u andere experimenten wilt controleren die in hetzelfde gebied worden uitgevoerd. In het verleden zocht u op trefwoorden in Slack, doorzocht Google Documenten en opende u het interne experimenteerplatform om experimenten te bekijken die met de regio waren getagd. Nu kunt u deze algemene stappen samenvatten in een vaardigheid en LLM’s vragen uitgebreid onderzoek uit te voeren en een rapport van relevante experimenten te genereren met hun doelen, duur, verkeer, statussen en documenten.

Als uw workflow uit meerdere onafhankelijke en herbruikbare componenten bestaat, moet u deze opsplitsen in afzonderlijke vaardigheden. In mijn geval heb ik twee vaardigheden gecreëerd: een voor het genereren van de visualisatie en een andere voor het publiceren ervan op mijn blog. Dat maakt de stukken modulair en gemakkelijker later opnieuw te gebruiken in andere workflows.

Vaardigheden en MCP werken goed samen. Ik gebruikte BigQuery MCP en de visualisatievaardigheid in één opdracht, en het genereerde met succes een visualisatie op basis van mijn datasets in BigQuery. MCP helpt het model soepel toegang te krijgen tot de externe tools, en vaardigheden helpen het het juiste proces voor een bepaalde taak te volgen. Daarom is deze combinatie krachtig en complementair aan elkaar.


Een laatste opmerking over mijn wekelijkse visualisatieproject

Waarom doe ik dat nog steeds, nu ik 80% van mijn wekelijkse visualisatieproces kan automatiseren?

Toen ik in 2018 voor het eerst met deze gewoonte begon, was het doel om Tableau te oefenen, de belangrijkste BI-tool die mijn werkgever gebruikte. Het doel is echter in de loop van de tijd veranderd: nu gebruik ik dit wekelijkse ritueel om verschillende datasets te verkennen die ik op het werk nooit zou tegenkomen, om mijn data-intuïtie en verhalen te verscherpen, en om de wereld door de lens van data te bekijken. Voor mij gaat het dus niet zozeer om de tool, maar om het ontdekkingsproces. En daarom ben ik van plan het te blijven doen, zelfs in het AI-tijdperk.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in