OpenAI a lansat GPT-5.4, joi, un nou model fundamental prezentat drept „cel mai capabil și eficient model frontieră pentru activități profesionale”. Pe lângă versiunea standard, GPT-5.4 este disponibil și ca model de raționament (GPT-5.4 Thinking) sau într-o variantă optimizată pentru performanță ridicată (GPT-5.4 Pro), transmite TechCrunch.
Detaliile noului model
Versiunea API a modelului va fi disponibilă cu ferestre de context de până la 1 milion de tokeni, de departe cea mai mare fereastră de context oferită până acum de OpenAI. Pe scurt, modelul poate ține minte și lua în calcul o cantitate uriașă de text într-o singură conversație. Practic, ChatGPT 5.4 va putea analiza o bucată mare de text fără să uite părți din începutul acestuia.
OpenAI a subliniat și o eficiență îmbunătățită a tokenilor, afirmând că GPT-5.4 poate rezolva aceleași probleme folosind semnificativ mai puțini tokeni decât predecesorul său.
Noul model vine cu rezultate mult îmbunătățite în benchmark-uri, inclusiv scoruri record în testele de utilizare a computerului OSWorld-Verified și WebArena Verified. Modelul a obținut, de asemenea, un scor record de 83% în testul GDPval al OpenAI pentru sarcini de tip knowledge work.
GPT-5.4 a ocupat și primul loc în benchmark-ul APEX-Agents al Mercor, conceput pentru a testa competențe profesionale în domenii precum dreptul și finanțele, potrivit unui comunicat al CEO-ului Mercor, Brendan Foody.
„[GPT-5.4] excelează la crearea unor livrabile pe termen lung, precum prezentări, modele financiare și analize juridice”, a declarat Foody în comunicat, „oferind performanțe de top în timp ce rulează mai rapid și la costuri mai mici decât modelele frontieră concurente.”
GPT-5.4 continuă eforturile companiei de a reduce halucinațiile și erorile factuale. OpenAI a spus că noul model este cu 33% mai puțin probabil să facă greșeli în afirmații individuale comparativ cu GPT-5.2, iar răspunsurile generale sunt cu 18% mai puțin probabil să conțină erori.
Alte actualizări
Ca parte a lansării, OpenAI a modificat modul în care versiunea API a GPT-5.4 gestionează apelarea instrumentelor, introducând un nou sistem numit Tool Search. Anterior, prompturile de sistem includeau definițiile tuturor instrumentelor disponibile atunci când modelul era apelat — un proces care putea consuma mulți tokeni pe măsură ce numărul instrumentelor creștea. Noul sistem permite modelelor să caute definițiile instrumentelor doar atunci când este necesar, rezultând cereri mai rapide și mai ieftine în sistemele cu multe instrumente disponibile.
OpenAI a inclus și o nouă evaluare de siguranță pentru a testa chain-of-thought-ul modelelor, comentariul intern prin care acestea își explică procesul de gândire în sarcini cu mai mulți pași. Cercetătorii în siguranța AI și-au exprimat de mult timp îngrijorarea că modelele de raționament ar putea denatura acest proces de gândire, iar testele arată că acest lucru se poate întâmpla în anumite circumstanțe.
Noua evaluare OpenAI arată că înșelăciunea este mai puțin probabilă în versiunea Thinking a GPT-5.4, „sugerând că modelul nu are capacitatea de a-și ascunde raționamentul și că monitorizarea chain-of-thought rămâne un instrument eficient de siguranță.”