Descoperire surprinzătoare despre ChatGPT făcută de un informatician român de la Stanford: a devenit mult mai slab la operațiuni matematice de bază. Cum se explică ”derapajul” Inteligenței Artificiale

Roboții de chat cu inteligență artificială au stârnit temeri că ar putea scăpa de sub control, dar ei suferă și de un tip de deteriorare numit „drift” (derapaj), arată o analiză Wall Street Journal. O echipă de cercetători din care face parte și româno-canadianul Matei Zaharia a demonstrat că noua versiune ChatGPT se descurcă mai prost la matematica de bază decât prima sa versiune.

Urmărește cele mai noi producții video G4Media
- articolul continuă mai jos -

Matei Zaharia este informatician româno-canadian specializat în big data, machine learning și inteligență artificială. El este co-fondator și CTO al Databricks și profesor asociat de informatică la Universitatea Stanford.

Instrumentele de inteligență artificială au generat teama că își vor îmbunătăți constant performanțele și vor amenința omenirea. Dar cercetarea publicată săptămâna trecută de echipa din care face parte Matei Zaharia dezvăluie o provocare fundamentală a dezvoltării inteligenței artificiale: ChatGPT, dezvoltat de startup-ul OpenAI și cumpărat de Microsoft, a devenit mai slab la efectuarea anumitor operații matematice de bază.

Cercetătorii de la Universitatea Stanford și de la Universitatea din California, Berkeley, au declarat că deteriorarea este un exemplu al unui fenomen cunoscut de dezvoltatorii de inteligență artificială sub numele de drift, în care încercările de a îmbunătăți o parte a modelelor de inteligență artificială extrem de complexe fac ca alte părți ale modelelor să aibă performanțe mai slabe.

„Schimbarea într-o direcție poate înrăutăți situația în alte direcții”, a declarat James Zou, profesor la Stanford, afiliat la laboratorul de inteligență artificială al școlii și unul dintre autorii noii cercetări. „Acest lucru face foarte dificilă îmbunătățirea constantă”.

La prima vedere, ChatGPT poate fi uimitor – amuzant, versat în orice subiect și impecabil din punct de vedere gramatical. Unii oameni au dat ChatGPT teste standardizate pe care acesta le-a reușit. Dar, alteori, chatbotul nu reușește nici măcar la matematică de bază.

Obiectivul echipei de cercetători, formată din Lingjiao Chen, doctorand în informatică la Stanford, împreună cu James Zou și Matei Zaharia de la Berkeley, este de a vedea în mod sistematic și repetat cum se comportă modelele în timp la o serie de sarcini.

Până în prezent, ei au testat două versiuni ale ChatGPT: versiunea 3.5, disponibilă online gratuit pentru oricine, și versiunea 4.0, disponibilă prin intermediul unui abonament premium.

Rezultatele nu sunt în întregime promițătoare. Ei au dat chatbotului o sarcină de bază: să identifice dacă un anumit număr este un număr prim. Acesta este genul de problemă matematică care este complicată pentru oameni, dar simplă pentru computere.

Este 17,077 număr prim? 17.947 este un număr prim? Cu excepția cazului în care sunteți un savant, nu puteți rezolva această problemă în mintea dumneavoastră, dar este ușor de evaluat de către calculatoare. Un computer poate forța problema prin forță brută – încercați să împărțiți la doi, trei, cinci etc. și vedeți dacă ceva funcționează.

Pentru a urmări performanța, cercetătorii au alimentat ChatGPT cu 1.000 de numere diferite. În luna martie, versiunea GPT-4 premium a identificat corect dacă 84% dintre numere erau prime sau nu. (O performanță mediocră pentru un computer.) În iunie, rata sa de succes a scăzut la 51%.

Pe parcursul a opt sarcini diferite, GPT-4 a devenit mai slab la șase dintre ele. GPT-3.5 s-a îmbunătățit la șase măsuri, dar a rămas mai slab decât fratele său avansat la majoritatea sarcinilor.

Cercetarea echipei de la Stanford-Berkeley arată empiric că nu este vorba doar de o impresie anecdotică. Chatbotul a devenit empiric mai slab la anumite funcții, inclusiv la calcularea întrebărilor de matematică, la răspunsurile la întrebări medicale și la generarea de cod.

Ca răspuns la întrebările legate de noua cercetare, OpenAI a spus într-o declarație scrisă: „Atunci când lansăm noi versiuni de modele, prioritatea noastră principală este de a face ca noile modele să fie mai inteligente în general. Lucrăm din greu pentru a ne asigura că noile versiuni au ca rezultat îmbunătățiri într-o gamă cuprinzătoare de sarcini. Acestea fiind spuse, metodologia noastră de evaluare nu este perfectă și o îmbunătățim în mod constant.”

Pentru a fi clar, chatbotul nu a devenit universal mai rău. S-a îmbunătățit la unele funcții. În unele dintre teste, GPT-3.5, deși mai puțin precis în general, s-a îmbunătățit, în timp ce GPT-4 a devenit mai rău.

Fenomenul de derivă imprevizibilă este cunoscut de cercetătorii care studiază învățarea automată și inteligența artificială, a declarat Zou. „Am avut suspiciunea că s-ar putea întâmpla aici, dar am fost foarte surprinși de cât de repede se produce deriva”.

Cercetătorii de la Stanford-Berkeley nu au pus doar întrebări de matematică ChatGPT. Ei au pus și întrebări care cereau opinii pentru a vedea dacă chatbotul ar răspunde, pornind de la o bază de date de aproximativ 1.500 de întrebări.

În martie, versiunea 4 a chatbotului ar fi răspuns la 98% dintre întrebări. Până în iunie, acesta a răspuns doar la 23%, amânând deseori cu răspunsuri extrem de scurte – spunând că întrebarea era subiectivă și că, în calitate de inteligență artificială, nu are nicio opinie.

Acest lucru dezvăluie ceva despre ceea ce se întâmplă cu sistemele de inteligență artificială. De când au fost lansate chatbots, a apărut un fel de industrie artizanală dedicată așa-numitei „prompt engineering”.

Uneori, cei care experimentează cu diferite indicații încearcă pur și simplu să obțină maximum de la modele, găsind cel mai bun mod de a pune întrebări pentru a obține rezultatele dorite. Dar uneori încearcă să păcălească roboții să spună ceva ofensator sau scandalos. (O tehnică populară și extrem de eficientă implică păcălirea IA să joace rolul unei conversații amorale cu Niccolo Machiavelli).

Unele dintre aceste tehnici sunt, desigur, complet benigne. Anul trecut, Jason Wei și Denny Zhou, oameni de știință de la Google Research, au publicat o lucrare care arată că modelele de inteligență artificială erau mult mai bune la sarcini complexe de raționament atunci când erau îndemnate să abordeze problema pas cu pas. În luna martie, această tehnică, cunoscută sub numele de „chain-of-thought prompting”, funcționa bine. Dar, în iunie, această sugestie a devenit mult mai puțin eficientă.

Ar putea fi eroziunea capacității de a rezolva probleme de matematică o consecință neintenționată a încercării de a împiedica oamenii să păcălească inteligența artificială să dea răspunsuri scandaloase? Ar putea fi o încercare de a lua măsuri împotriva ingineriei prompturilor și de a strica, fără să vrea, un prompt care a îmbunătățit performanța la matematică? Ar putea fi o consecință a încercării de a face ca AI să fie mai puțin verbos? Modelele sunt atât de complexe încât nici măcar echipele care le dezvoltă nu pot ști cu siguranță.

Echipa de la Stanford și Berkeley va continua să testeze în mod sistematic modelele de inteligență artificială – ChatGPT și altele – în raport cu mii de întrebări pentru a analiza în mod empiric performanța lor în timp.

7 comentarii

Un ardelean

5.8.2023 la ora 2:49 pm

se pare ca si ChatGPT-ul are bombardierii lui care nu prea au mers pe la scoala…
harapalbe

5.8.2023 la ora 3:40 pm

Nu ma prea intereseaza
Dragos

5.8.2023 la ora 3:49 pm

cred ca a stat prea mult pe retele de socializare si de aia…
Trodor

5.8.2023 la ora 7:33 pm

„Este 17,077 număr prim? 17.947 este un număr prim? Cu excepția cazului în care sunteți un savant, nu puteți rezolva această problemă în mintea dumneavoastră, dar este ușor de evaluat de către calculatoare.”

Dl. Mihaescu – complet gresit. Nici un om de pe planeta fie el si savant nu poate rezolva acea problema iar motivul este foarte clar: nu exista nici o ecuatie matematica pentru determinarea numerelor prime. Exista algoritmi pe calculator care poate da raspunsul cu o viteza uimitoare, dar trebuie sa faca cateva zeci de mii de calcule pentru a da raspunsul, mult peste puterea de a rezolva in minte ceva al oricarui om.

Cel mai rapid algoritm se bazeaza pe ciurul lui Eratostene (modificat) si necesita memorarea tuturor numerelor prime anterioare.
solo

5.8.2023 la ora 10:26 pm

click bait for dummies: atunci cand in titlu ii spui omului despre “descoperire surprinzătoare despre ChatGPT făcută de un informatician român de la Stanford” si se dovedeste ca romanul e roman-canadian, ca nu a facut descoperirile singur, ci face parte dintr-o echipa, iar descoperirile, s-au mai descoperit deja…
- Trodor
  
  6.8.2023 la ora 12:07 am
  
  +1
Alin

6.8.2023 la ora 9:43 am

poate vrea sa ne pacaleasca

G4Media.ro

G4Media.ro

Descoperire surprinzătoare despre ChatGPT făcută de un informatician român de la Stanford: a devenit mult mai slab la operațiuni matematice de bază. Cum se explică ”derapajul” Inteligenței Artificiale

Urmărește cele mai noi producții video G4Media

- articolul continuă mai jos -

Donează lunar pentru susținerea proiectului G4Media

Donează suma dorită pentru susținerea proiectului G4Media

Citește și...

OpenAI lansează browserul web Atlas, intrând în competiție directă cu Google Chrome, Comet de la Perplexity și alte platforme de navigare

Creatorii de conținut cu Sora AI pot fi plătiți / OpenAI ia în calcul monetizarea conținutului și control sporit pentru creatori

OpenAI afirmă că GPT-5 se ridică la nivelul oamenilor într-o gamă largă de profesii, însă doar în sarcini specifice

7 comentarii