Home Nieuws GPT-5.5 Instant laat zien wat het zich heeft herinnerd, maar niet alles

GPT-5.5 Instant laat zien wat het zich heeft herinnerd, maar niet alles

7
0
GPT-5.5 Instant laat zien wat het zich heeft herinnerd, maar niet alles

OpenAI heeft het standaardmodel voor ChatGPT bijgewerkt naar de nieuwe GPT-5.5 Instant, samen met een nieuwe geheugenmogelijkheid die eindelijk laat zien welke contextvormige reacties – althans enkele daarvan.

Deze beperking geeft aan dat modellen een tweede, onvolledige geheugenwaarnemingslaag beginnen te creëren die in conflict zou kunnen komen met bestaande auditsystemen en agentlogboeken.

GPT-5.5 Instant vervangt GPT-5.3 Instant als het standaard ChatGPT-model en is een versie van zijn nieuw vlaggenschip GPT-5.5 LLM. Het zou betrouwbaarder, nauwkeuriger en slimmer moeten zijn dan 5.3.

Maar het is de introductie van geheugenbronnen, die in alle modellen op het platform mogelijk zullen worden gemaakt, die bedrijven kunnen helpen bij hun projecten.

“Wanneer een reactie gepersonaliseerd is, kun je zien welke context is gebruikt, zoals opgeslagen herinneringen of eerdere chats, en deze verwijderen of corrigeren als iets verouderd of niet langer relevant is”, aldus OpenAI in een blogpost.

Wanneer een gebruiker ChatGPT iets vraagt, kunnen gebruikers op de bronnenknop (onderaan het antwoord) tikken om te zien op welke bestanden of eerdere chats het model heeft getikt om het antwoord te vinden. Gebruikers hebben ook volledige controle over de bronnen die modellen kunnen citeren, en deze bronnen worden niet gedeeld als het gesprek naar anderen wordt gestuurd.

Het bedrijf zei dat geheugenbronnen het gemakkelijker moeten maken om modelreacties te personaliseren. Toch gaf OpenAI toe dat de modellen “misschien niet elke factor laten zien die een antwoord vormde” en beloofde de mogelijkheden in de loop van de tijd uitgebreider te maken.

Wat dit betekent is dat geheugenbronnen een schijn van waarneembaarheid bieden in ChatGPT-antwoorden, maar nog geen volledige controleerbaarheid.

Concurrerende geheugensystemen

Bedrijven beschikken over een systeem om een ​​deel van het geheugen- en contextprobleem op te lossen met modellen en agenten. Modellen worden aan de context blootgesteld via retrieval-augmentedgeneration (RAG) pijplijnen; wat de agent ook ophaalt uit de vectordatabases, wordt vastgelegd en de status van de agent wordt opgeslagen in een geheugenlaag. Dit alles wordt bijgehouden in applicatielogboeken, meestal in een orkestratie- of beheerlaag met ingebouwde observatie. Idealiter kunnen teams hierdoor fouten via de stapel traceren.

Het huidige systeem is onvolmaakt; soms is het niet eenvoudig om faalpunten op te sporen, maar het is in ieder geval intern consistent. Voor bedrijven die ChatGPT gebruiken, of het nu de standaard GPT-5.5 Instant is of het model van hun keuze, is dat niet langer het geval.

Het model brengt zijn eigen versie naar voren met geheugenbronnen die volledig gescheiden zijn van bestaande ophaallogboeken – kortom, een door het model gerapporteerde context. Er ontstaat een probleem als deze niet op betrouwbare wijze met elkaar kunnen worden verzoend. En omdat geheugenbronnen gebruikers slechts een deel van het beeld geven (het is onduidelijk wat de limiet van ChatGPT is bij het citeren van geheugenbronnen) wordt het zelfs nog moeilijker om wat GPT-5.5 Instant zei te matchen met wat het daadwerkelijk deed in de productieomgeving.

Deze situatie creëert een nieuwe foutmodus: een concurrerend contextlogboek. Als er iets mis lijkt te zijn, kan dit inconsistenties creëren waar bedrijven mee te maken krijgen.

Malcolm Harkins, chief trust and security officer bij HiddenLayer, vertelde VentureBeat dat geheugenbronnen “op een pragmatische middenweg lijken” bij het bieden van enige transparantie, maar dat het nog steeds niet gemakkelijk is om de waarde ervan in te zien.

“Voor ondernemingen is het nuttig, maar op zichzelf onvoldoende”, zegt Harkins. “De echte waarde zal afhangen van hoe het integreert met beveiliging, governance, toegangscontroles en auditsystemen.”

Een capabeler standaardmodel

GPT-5.5 Instant verwerkt echter het geheugen, en OpenAI noemt het een verbetering ten opzichte van GPT-5.3 Instant.

Uit interne evaluaties bleek dat GPT-5.5 Instant 52,5% minder gehallucineerde claims retourneerde dan het vorige standaardmodel, vooral voor domeinen met hoge inzet, zoals geneeskunde, recht en financiën. Het aantal onnauwkeurige claims daalde met 37,3% bij uitdagende gesprekken. Het bedrijf zei dat het model verbeterde op het gebied van fotoanalyse en het uploaden van afbeeldingen, het beantwoorden van STEM-vragen en het weten wanneer het zijn eigen kennisbank moest aanboren of internetzoeken moest gebruiken.

Peter Gostev, AI-expert bij de onafhankelijke modelbeoordelaar Arena, legde in een e-mail aan VentureBeat uit dat het belangrijkste resultaat van GPT-5.5 Instant is hoe het presteert op de algemene tekstranglijst, vooral omdat zijn voorganger niet sterk presteerde.

“Sinds GPT-4o is GPT-5.2-Chat het best presterende OpenAI-chatmodel in de Arena, dat maanden na de release nog steeds op de 12e plaats staat in de Overall Text Arena”, aldus Gostev. Opvallend is dat gebruikers er zelfs de voorkeur aan gaven boven de hoger redenerende GPT-5.2-High-variant, die momenteel op de 52e plaats staat in de Arena. “Ter vergelijking: GPT-5.3-Chat, het vorige standaardmodel in ChatGPT, was aanzienlijk minder competitief en stond op de 44e plaats algemeen, 32 plaatsen lager dan GPT-5.2-Chat.”

Wat bedrijven moeten doen aan geheugenbronnen

Organisaties die voor sommige taken afhankelijk zijn van ChatGPT zullen moeten formaliseren hoe het geheugen voor hun stack werkt. Geheugenbronnen zijn niet beperkt tot GPT-5.5 Instant; het is ingeschakeld voor alle modellen op het ChatGPT-platform.

Om het probleem van concurrerende geheugenbronnen aan te pakken, moeten bedrijven hun geheugenbeheer auditen. De door modellen gerapporteerde context kan deze logboeken overlappen of tegenspreken, dus het is het beste om een ​​duidelijke bron van waarheid te definiëren. In geval van een storing weten beheerders welke log ze moeten geloven.

Het zou ook een goed idee zijn om te beslissen of geheugenbronnen al dan niet aan gebruikers beschikbaar moeten worden gesteld. ChatGPT toont slechts een select aantal chats of bestanden die zijn gebruikt om een ​​verzoek te voltooien. Sommige gebruikers vinden meer transparantie misschien betrouwbaar.

Uiteindelijk is het belangrijkste dat bedrijven moeten onthouden met betrekking tot geheugenbronnen dat wat het model als context rapporteert, niet het volledige beeld voor auditing is. Het is een vorm van waarneembaarheid, maar kan een volledig onderzoek niet doorstaan.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in