Home Nieuws Surge AI CEO zegt dat bedrijven optimaliseren voor ‘AI Slop’

Surge AI CEO zegt dat bedrijven optimaliseren voor ‘AI Slop’

44
0
Surge AI CEO zegt dat bedrijven optimaliseren voor ‘AI Slop’

AI-bedrijven geven prioriteit aan flash boven inhoud, zegt Surge-AI’s CEO.

“Ik ben bang dat in plaats van AI te bouwen die ons als soort daadwerkelijk vooruit zal helpen, kanker zal genezen, armoede zal oplossen, het universele zal begrijpen, al deze grote vragen, we in plaats daarvan zullen optimaliseren voor AI-slop”, zei Edwin Chen in een aflevering van “Lenny’s” podcast die zondag werd gepubliceerd.

“We leren onze modellen feitelijk om dopamine na te jagen in plaats van de waarheid”, voegde hij eraan toe.

Chen opgericht AI-training startup Surge in 2020 na gewerkt te hebben bij Twitter, Google en Meta. Surge voert de gig-platform gegevensannotatie, die zegt dat het een miljoen freelancers betaalt om AI-modellen te trainen. Surge concurreert met start-ups op het gebied van datalabeling, zoals Scale AI en Mercor, en beschouwt Anthropic als klant.

Op de podcast van zondag zei Chen dat bedrijven prioriteit geven aan AI-slop vanwege de klassementen in de sector.

“Op dit moment wordt de industrie gespeeld door verschrikkelijke klassementen zoals LMArena”, zei hij, verwijzend naar een populair online klassement waar mensen kunnen stemmen op welke AI-reactie beter is.

‘Ze lezen niet zorgvuldig en controleren de feiten niet’, zei hij. “Ze bekijken deze reacties twee seconden lang en kiezen wat er het meest opzichtig uitziet.”

Hij voegde eraan toe: “Het optimaliseert letterlijk je modellen voor het soort mensen dat roddelbladen in de supermarkt koopt.”

Nog steeds, de CEO van Surge zei dat AI-labs aandacht moeten besteden aan deze klassementen omdat hen tijdens verkoopbijeenkomsten naar hun ranglijst kan worden gevraagd.

Net als Chen hebben onderzoekswetenschappers dat gedaan bekritiseerde benchmarks voor het overwaarderen van oppervlakkige eigenschappen.

In een blogpost van maart zei Dean Valentine, de medeoprichter en CEO van AI-beveiligingsstartup ZeroPath, dat “de recente vooruitgang in het AI-model vooral als onzin voelt.”

Valentine zei dat hij en zijn team de prestaties hadden geëvalueerd van verschillende modellen die beweerden “een soort verbetering” te hebben sinds de release van Anthropic’s 3.5 Sonnet in juni 2024. Geen van de nieuwe modellen die zijn team probeerde, had een “significant verschil” gemaakt in de interne benchmarks van zijn bedrijf of in het vermogen van ontwikkelaars om nieuwe bugs te vinden, zei hij.

Ze waren misschien ‘leuker om mee te praten’, maar ze waren ‘geen weerspiegeling van economisch nut of algemeenheid’.

In een paper uit februari getiteld “Can we trust AI Benchmarks?” onderzoekers van het Gemeenschappelijk Centrum voor Onderzoek van de Europese Commissie concludeerden dat er grote problemen bestaan ​​in de huidige evaluatieaanpak.

De onderzoekers stellen dat benchmarking “fundamenteel wordt gevormd door de culturele, commerciële en competitieve dynamiek die vaak prioriteit geeft aan state-of-the-art prestaties ten koste van bredere maatschappelijke problemen.”

Bedrijven zijn ook onder vuur komen te liggen omdat ze deze benchmarks ‘gamen’.

In april bracht Meta twee nieuwe modellen uit in zijn Llama-familie die naar eigen zeggen “betere resultaten” opleverden dan modellen van vergelijkbare grootte van Google en het Franse AI-laboratorium Mistral. Vervolgens werd het bedrijf beschuldigd van het spelen van een benchmark.

LMArena zei dat Meta “duidelijker had moeten maken” dat het een versie van Llama 4 Maverick had ingediend die “aangepast” was om beter te presteren voor zijn testformaat.

“Meta’s interpretatie van ons beleid kwam niet overeen met wat we van modelaanbieders verwachten”, zei LMArena in een X-bericht.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in