Wanneer uw gemiddelde dagelijkse tokengebruik 8 miljard per dag bedraagt, heeft u een enorm schaalprobleem. Dit was het geval bij AT&T, en Chief Data Officer Andy Markus en zijn team beseften dat het simpelweg niet haalbaar (of economisch) was om alles via grote redeneermodellen te pushen. Dus toen ze een interne Ask AT&T persoonlijke assistent bouwden, reconstrueerden ze de orkestratielaag. Het resultaat: een multi-agentstack gebouwd op LangChain, waarbij grote taalmodellen ‘superagenten’ kleinere, onderliggende ‘werknemers’-agenten aansturen die beknopter, doelgerichter werk uitvoeren. Deze flexibele orkestratielaag heeft de latentie, snelheid en responstijden dramatisch verbeterd, vertelde Markus aan VentureBeat. Het meest opvallend is dat zijn team tot 90% kostenbesparingen heeft gerealiseerd. “Ik geloof dat de toekomst van agentische AI vele, vele, vele kleine taalmodellen (SLM’s) zijn”, zei hij. “Wij vinden dat kleine taalmodellen ongeveer net zo nauwkeurig, zo niet zo nauwkeurig, zijn als een groot taalmodel op een bepaald domeingebied.”
Recentelijk hebben Markus en zijn team deze opnieuw ontworpen stack samen met Microsoft Azure gebruikt om Ask AT&T Workflows te bouwen en in te zetten, een grafische drag-and-drop-agentbuilder waarmee werknemers taken kunnen automatiseren.
De agenten maken gebruik van een reeks eigen AT&T-tools die documentverwerking, natuurlijke taal-naar-SQL-conversie en beeldanalyse verzorgen. “Terwijl de workflow wordt uitgevoerd, zijn het de gegevens van AT&T die de beslissingen bepalen”, aldus Markus. In plaats van algemene vragen te stellen, “stellen we vragen over onze gegevens, en gebruiken we onze gegevens om ervoor te zorgen dat deze zich richten op onze informatie bij het nemen van beslissingen.” Toch houdt een mens altijd toezicht op de ‘kettingreactie’ van agenten. Alle acties van agenten worden geregistreerd, gegevens worden tijdens het hele proces geïsoleerd en op rollen gebaseerde toegang wordt afgedwongen wanneer agenten werklasten aan elkaar doorgeven. “Dingen gebeuren autonoom, maar de mens op de loop zorgt nog steeds voor de controle en balans van het hele proces”, aldus Markus.
Niet overbouwen, met behulp van ‘uitwisselbare en selecteerbare’ modellen
AT&T heeft geen ‘alles vanaf nul opbouwen’-mentaliteit, merkte Markus op; het gaat meer om het vertrouwen op modellen die “uitwisselbaar en selecteerbaar” zijn en “nooit een product opnieuw opbouwen.” Naarmate de functionaliteit in de hele branche volwassener wordt, zullen ze tools van eigen bodem afschaffen in plaats van kant-en-klare opties, legde hij uit. “Omdat in deze ruimte de dingen elke week veranderen, als we geluk hebben, soms meerdere keren per week”, zei hij. “We moeten verschillende componenten kunnen testen, aansluiten en aansluiten.” Ze voeren “echt rigoureuze” evaluaties uit van zowel de beschikbare opties als die van henzelf; Hun Ask Data with Relational Knowledge Graph staat bijvoorbeeld bovenaan het Spider 2.0-scorebord voor tekst-naar-SQL-nauwkeurigheid, en andere tools hebben hoog gescoord op de BERT SQL-benchmark. In het geval van agentische tools van eigen bodem gebruikt zijn team LangChain als kernframework, verfijnt modellen met Standard Retrieval-Augmented Generation (RAG) en andere interne algoritmen, en werkt nauw samen met Microsoft, waarbij gebruik wordt gemaakt van de zoekfunctionaliteit van de technologiegigant voor hun vectorwinkel. Maar uiteindelijk is het belangrijk om niet zomaar AI of andere geavanceerde tools in alles te integreren, adviseerde Markus. ‘Soms maken we dingen te ingewikkeld’, zegt hij. “Soms heb ik een oplossing gezien die te technisch was.” In plaats daarvan moeten bouwers zich afvragen of een bepaald hulpmiddel daadwerkelijk een middel moet zijn. Dit kunnen vragen zijn als: Welk nauwkeurigheidsniveau zou kunnen worden bereikt als het een eenvoudiger generatieve oplossing met één draai zou zijn? Hoe konden ze het in kleinere stukjes opsplitsen, waarbij elk stuk ‘veel nauwkeuriger’ kon worden afgeleverd?, zoals Markus het uitdrukte. Nauwkeurigheid, kosten en reactievermogen van het gereedschap moeten kernprincipes zijn. “Ook nu de oplossingen ingewikkelder zijn geworden, geven deze drie mooie basisprincipes ons nog steeds veel richting”, zei hij.
Hoe 100.000 werknemers het daadwerkelijk gebruiken
Ask AT&T Workflows is uitgerold naar ruim 100.000 werknemers. Meer dan de helft zegt dat ze het elke dag gebruiken, en actieve gebruikers melden een productiviteitswinst van wel 90%, aldus Markus. “We kijken of ze het systeem herhaaldelijk gebruiken? Omdat plakkerigheid een goede indicator is voor succes”, zei hij. De agentbouwer biedt “twee trajecten” aan voor medewerkers. Een daarvan is pro-code, waarbij gebruikers Python achter de schermen kunnen programmeren en regels kunnen dicteren voor hoe agenten moeten werken. De andere is geen code, met een visuele interface met slepen en neerzetten voor een “vrij lichte gebruikerservaring”, zei Markus. Interessant genoeg neigen zelfs ervaren gebruikers naar de laatste optie. Bij een recente hackathon gericht op een technisch publiek konden deelnemers uit beide kiezen, en ruim de helft koos voor low code. “Dit was een verrassing voor ons, omdat deze mensen allemaal zeer bekwaam waren op het gebied van programmeren”, aldus Markus. Werknemers gebruiken agenten voor verschillende functies; Een netwerkingenieur kan er bijvoorbeeld een reeks van bouwen om waarschuwingen af te handelen en klanten opnieuw te verbinden wanneer de connectiviteit verloren gaat. In dit scenario kan één agent telemetrie correleren om het netwerkprobleem en de locatie ervan te identificeren, wijzigingslogboeken op te halen en te controleren op bekende problemen. Vervolgens kan het een probleemticket openen. Een andere agent zou dan manieren kunnen bedenken om het probleem op te lossen en zelfs nieuwe code kunnen schrijven om het te patchen. Zodra het probleem is opgelost, kan een derde agent een samenvatting maken met preventieve maatregelen voor de toekomst. “De (menselijke) ingenieur zou over alles waken en ervoor zorgen dat de agenten presteren zoals verwacht en de juiste acties ondernemen”, zei Markus.
Codering op basis van AI heeft de toekomst
Diezelfde technische discipline – het opdelen van werk in kleinere, speciaal gebouwde stukken – hervormt nu de manier waarop AT&T zelf code schrijft, door middel van wat Markus ‘AI-aangedreven codering’ noemt. Hij vergeleek het proces met RAG; ontwikkelaars gebruiken agile codeermethoden in een geïntegreerde ontwikkelomgeving (IDE) samen met ‘functiespecifieke’ build-archetypen die dicteren hoe code moet interageren. De uitvoer is geen losse code; de code ligt “zeer dicht bij productiekwaliteit” en zou die kwaliteit in één beurt kunnen bereiken. “We hebben allemaal met vibe-codering gewerkt, waarbij we een soort code-editor hebben”, merkte Markus op. Maar door AI gevoede codering “elimineert veel van de heen en weer gaande iteraties die je zou kunnen tegenkomen bij vibe-codering.” Hij beschouwt deze codeertechniek als een ‘tastbare herdefinitie’ van de softwareontwikkelingscyclus, waardoor de ontwikkelingstijdlijnen uiteindelijk worden verkort en de output van productiecode wordt vergroot. Niet-technische teams kunnen ook meedoen aan de actie en met behulp van aanwijzingen in eenvoudige taal softwareprototypes bouwen. Zijn team heeft de techniek bijvoorbeeld gebruikt om in twintig minuten een intern samengesteld dataproduct te bouwen; zonder AI zou de bouw ervan zes weken hebben geduurd. “We ontwikkelen er software mee, passen er software mee aan, doen er data science mee, doen er data-analyse mee, doen er data-engineering mee”, aldus Markus. “Het is dus een gamechanger.”


