Home Nieuws Evaluatie van AI-agenten vervangt het labelen van gegevens als het kritieke pad...

Evaluatie van AI-agenten vervangt het labelen van gegevens als het kritieke pad naar productie-implementatie

1
0
Evaluatie van AI-agenten vervangt het labelen van gegevens als het kritieke pad naar productie-implementatie

Naarmate LLM’s zich blijven verbeteren, is er in de sector enige discussie ontstaan ​​over de voortdurende behoefte aan zelfstandige tools voor het labelen van gegevens, omdat LLM’s steeds beter in staat zijn om met alle soorten gegevens te werken. Menselijk Signaal, de belangrijkste commerciële leverancier achter het open-source Label Studio-programma heeft een andere mening. In plaats van minder vraag naar datalabels te zien, ziet het bedrijf juist meer.

Eerder deze maand nam HumanSignal Erud AI over en lanceerde zijn fysieke Frontier Data Labs voor nieuwe gegevensverzameling. Maar het creëren van data is slechts de helft van de uitdaging. Vandaag pakt het bedrijf het volgende aan: bewijzen dat de AI-systemen die op die gegevens zijn getraind, echt werken. Met de nieuwe multimodale agentevaluatiemogelijkheden kunnen bedrijven complexe AI-agents valideren die applicaties, afbeeldingen, code en video genereren.

“Als je je concentreert op de bedrijfssegmenten, moeten alle AI-oplossingen die ze bouwen nog steeds worden geëvalueerd, wat gewoon een ander woord is voor het labelen van gegevens door mensen en nog meer door experts”, vertelde Michael Malyuk, medeoprichter en CEO van HumanSignal, aan VentureBeat in een exclusief interview.

Het kruispunt van datalabeling en agentische AI-evaluatie

Het hebben van de juiste gegevens is geweldig, maar dat is niet het einddoel van een onderneming. Waar de moderne datalabeling naartoe gaat, is evaluatie.

Het is een fundamentele verschuiving in wat bedrijven moeten valideren: niet of hun model een afbeelding correct classificeert, maar of hun AI-agent goede beslissingen heeft genomen bij een complexe, uit meerdere stappen bestaande taak waarbij redeneren, gereedschapsgebruik en het genereren van code een rol spelen.

Als evaluatie slechts het labelen van gegevens voor AI-outputs is, betekent de verschuiving van modellen naar agenten een stapsgewijze verandering in wat er moet worden gelabeld. Waar traditionele datalabeling het markeren van afbeeldingen of het categoriseren van tekst inhoudt, vereist de evaluatie van agenten het beoordelen van redeneerketens in meerdere stappen, beslissingen over gereedschapsselectie en multimodale output – allemaal binnen één enkele interactie.

“Er is een zeer sterke behoefte aan niet alleen mensen die op de hoogte zijn, maar ook experts”, zei Malyuk. Hij wees op toepassingen waarbij veel op het spel staat, zoals de gezondheidszorg en juridisch advies, als voorbeelden waarbij de kosten van fouten onbetaalbaar hoog blijven.

Het verband tussen datalabeling en AI-evaluatie gaat dieper dan de semantiek. Beide activiteiten vereisen dezelfde fundamentele capaciteiten:

  • Gestructureerde interfaces voor menselijk oordeel: Of reviewers nu afbeeldingen labelen voor trainingsgegevens of beoordelen of een agent meerdere tools correct heeft georkestreerd, ze hebben speciaal gebouwde interfaces nodig om hun beoordelingen systematisch vast te leggen.

  • Consensus van meerdere recensenten: Voor trainingsdatasets van hoge kwaliteit zijn meerdere labelers nodig die meningsverschillen kunnen verzoenen. Evaluatie van hoge kwaliteit vereist hetzelfde: meerdere deskundigen die de resultaten beoordelen en meningsverschillen oplossen.

  • Domeinexpertise op schaal: Voor het trainen van moderne AI-systemen zijn vakexperts nodig, en niet alleen maar crowdwerkers die op knoppen klikken. Het evalueren van productie-AI-outputs vereist dezelfde diepgaande expertise.

  • Feedback loopt door in AI-systemen: Gelabelde training datafeeds modelontwikkeling. Evaluatiegegevens zorgen voor voortdurende verbetering, verfijning en benchmarking.

Evalueren van de volledige agenttracering

De uitdaging bij het evalueren van agenten is niet alleen de hoeveelheid gegevens, maar ook de complexiteit van wat moet worden beoordeeld. Agents produceren geen eenvoudige tekstuitvoer; ze genereren redeneringsketens, maken gereedschapsselecties en produceren artefacten op meerdere modaliteiten.

De nieuwe mogelijkheden in Label Studio Enterprise richten zich op de validatievereisten voor agenten:

  • Multimodale sporeninspectie: Het platform biedt uniforme interfaces voor het beoordelen van de volledige tracering van de uitvoering van agenten: redeneringsstappen, toolaanroepen en uitvoer over verschillende modaliteiten heen. Hiermee wordt een veelvoorkomend pijnpunt aangepakt waarbij teams afzonderlijke logstreams moeten parseren.

  • Interactieve evaluatie van meerdere beurten: Beoordelaars beoordelen gespreksstromen waarbij agenten de status over meerdere beurten behouden, waarbij ze het volgen van de context en de intentie-interpretatie gedurende de hele interactiereeks valideren.

  • Agent Arena: Vergelijkend evaluatiekader voor het testen van verschillende agentconfiguraties (basismodellen, promptsjablonen, guardrail-implementaties) onder identieke omstandigheden.

  • Flexibele evaluatierubrieken: Teams definiëren domeinspecifieke evaluatiecriteria programmatisch in plaats van vooraf gedefinieerde statistieken te gebruiken, ter ondersteuning van vereisten zoals begripsnauwkeurigheid, geschiktheid van reacties of uitvoerkwaliteit voor specifieke gebruiksscenario’s

Agentevaluatie is het nieuwe strijdtoneel voor leveranciers van datalabels

HumanSignal is niet de enige die erkent dat agentevaluatie de volgende fase van de markt voor datalabels vertegenwoordigt. Concurrenten maken soortgelijke keuzes nu de sector reageert op zowel technologische verschuivingen als marktverstoringen.

Labelbox lanceerde in augustus 2025 zijn Evaluation Studio, gericht op rubriekgebaseerde evaluaties. Net als HumanSignal breidt het bedrijf zich verder uit dan de traditionele datalabeling naar productie-AI-validatie.

Het algehele concurrentielandschap voor datalabeling veranderde dramatisch in juni toen Meta $14,3 miljard investeerde voor een belang van 49% in Scale AI, de voormalige marktleider. De deal veroorzaakte een uittocht van enkele van de grootste klanten van Scale. HumanSignal profiteerde van de verstoring, waarbij Malyuk beweerde dat zijn bedrijf afgelopen kwartaal meerdere concurrerende deals kon binnenhalen. Malyuk noemt platformvolwassenheid, configuratieflexibiliteit en klantenondersteuning als onderscheidende factoren, hoewel concurrenten soortgelijke beweringen doen.

Wat dit betekent voor AI-bouwers

Voor bedrijven die productie-AI-systemen bouwen, heeft de convergentie van de datalabel- en evaluatie-infrastructuur verschillende strategische implicaties:

Begin met de grondwaarheid. Investeringen in het creëren van hoogwaardige gelabelde datasets met meerdere deskundige reviewers die meningsverschillen oplossen, werpen vruchten af ​​gedurende de hele levenscyclus van de AI-ontwikkeling – van de initiële training tot de voortdurende productieverbetering.

Waarneembaarheid blijkt noodzakelijk maar onvoldoende. Hoewel het monitoren van wat AI-systemen doen belangrijk blijft, meten observatie-instrumenten de activiteit en niet de kwaliteit. Bedrijven hebben een speciale evaluatie-infrastructuur nodig om de output te beoordelen en verbeteringen te stimuleren. Dit zijn verschillende problemen die verschillende capaciteiten vereisen.

Trainingsdata-infrastructuur doet ook dienst als evaluatie-infrastructuur. Organisaties die hebben geïnvesteerd in datalabelplatforms voor modelontwikkeling kunnen diezelfde infrastructuur uitbreiden naar productie-evaluatie. Dit zijn geen afzonderlijke problemen die afzonderlijke tools vereisen; het is dezelfde fundamentele workflow die in verschillende fasen van de levenscyclus wordt toegepast.

Voor bedrijven die AI op grote schaal inzetten, is het knelpunt verschoven van het bouwen van modellen naar het valideren ervan. Organisaties die deze verschuiving vroegtijdig onderkennen, profiteren van voordelen bij AI-systemen voor de scheepvaartproductie.

De cruciale vraag voor ondernemingen is geëvolueerd: niet of AI-systemen geavanceerd genoeg zijn, maar of organisaties systematisch kunnen bewijzen dat ze voldoen aan de kwaliteitseisen van specifieke domeinen waar veel op het spel staat.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in