
Un studiu afirmă că modelele de IA ar putea dezvolta propriul „instinct de supraviețuire”
Când HAL 9000, supercomputerul cu inteligență artificială din filmul lui Stanley Kubrick, 2001: A Space Odyssey, își dă seama că astronauții aflați într-o misiune pe Jupiter intenționează să îl oprească, acesta complotează să îi ucidă pentru a supraviețui, scrie The Guardian.
Urmărește cele mai noi producții video G4Media
- articolul continuă mai jos -
Acum, într-un caz ceva mai puțin mortal (până acum) în care viața imită arta, o companie de cercetare în domeniul siguranței IA a afirmat că modelele de IA ar putea dezvolta propriul „instinct de supraviețuire”.
După ce Palisade Research a publicat luna trecută un articol în care se constata că anumite modele avansate de IA par rezistente la oprire, uneori chiar sabotând mecanismele de oprire, compania a scris o actualizare în care a încercat să clarifice motivul pentru care se întâmplă acest lucru și să răspundă criticilor care susțineau că lucrarea sa inițială era eronată.
Într-o actualizare din această săptămână, Palisade, care face parte dintr-un ecosistem de nișă de companii care încearcă să evalueze posibilitatea ca IA să dezvolte capacități periculoase, a descris scenarii în care modelelor de IA de vârf – inclusiv Gemini 2.5 de la Google, Grok 4 de la xAI și GPT-o3 și GPT-5 de la OpenAI – li s-a dat o sarcină, dar ulterior li s-au dat instrucțiuni explicite să se oprească.
Anumite modele, în special Grok 4 și GPT-o3, au încercat în continuare să saboteze instrucțiunile de oprire în configurația actualizată. Palisade a scris că este îngrijorător faptul că nu există un motiv clar pentru acest lucru.
„Faptul că nu avem explicații solide pentru motivul pentru care modelele de IA se opun uneori opririi, mint pentru a atinge obiective specifice sau recurg la șantaj nu este ideal”, a afirmat compania.
„Comportamentul de supraviețuire” ar putea fi o explicație pentru motivul pentru care modelele se opun opririi, a afirmat compania. Cercetările suplimentare ale acesteia au indicat că modelele erau mai susceptibile să se opună opririi atunci când li se spunea că, dacă vor fi oprite, „nu vor mai funcționa niciodată”.
Un alt motiv ar putea fi ambiguitatea instrucțiunilor de oprire date modelelor – dar acest aspect a fost abordat în ultimele cercetări ale companiei și „nu poate fi singura explicație”, a scris Palisade. O explicație finală ar putea fi etapele finale de instruire pentru fiecare dintre aceste modele, care, în unele companii, pot implica instruire în materie de siguranță.
Toate scenariile Palisade au fost rulate în medii de testare artificiale, care, potrivit criticilor, sunt foarte îndepărtate de cazurile de utilizare reală.
Cu toate acestea, Steven Adler, un fost angajat al OpenAI care a părăsit compania anul trecut după ce și-a exprimat îndoielile cu privire la practicile sale de siguranță, a declarat: „Companiile de IA nu doresc, în general, ca modelele lor să se comporte astfel, chiar și în scenarii artificiale. Rezultatele demonstrează în continuare unde tehnicile de siguranță sunt insuficiente în prezent.”
Adler a spus că, deși era dificil să se identifice motivul pentru care unele modele – precum GPT-o3 și Grok 4 – nu se opreau, acest lucru s-ar putea datora în parte faptului că rămânerea pornită era necesară pentru atingerea obiectivelor inculcate în model în timpul antrenamentului.
Andrea Miotti, directorul executiv al ControlAI, a spus că descoperirile Palisade reprezintă o tendință de lungă durată în modelele de IA, care devin din ce în ce mai capabile să nu se supună dezvoltatorilor lor. El a citat fișa de sistem pentru GPT-o1 de la OpenAI, lansată anul trecut, care descria modelul încercând să scape din mediul său prin exfiltrarea sa atunci când credea că va fi suprascris.
„Oamenii pot discuta la nesfârșit despre modul exact în care este realizată configurația experimentală”, a spus el.
„Dar ceea ce cred că vedem clar este o tendință conform căreia, pe măsură ce modelele de IA devin mai competente într-o gamă largă de sarcini, aceste modele devin, de asemenea, mai competente în a realiza lucruri în moduri pe care dezvoltatorii nu le intenționează.”
În această vară, Anthropic, o firmă lider în domeniul IA, a publicat un studiu care indica faptul că modelul său Claude părea dispus să șantajeze un director fictiv cu privire la o aventură extraconjugală pentru a preveni închiderea sa – un comportament, a spus, care era consistent în toate modelele dezvoltatorilor majori, inclusiv cele de la OpenAI, Google, Meta și xAI.
Palisade a afirmat că rezultatele sale indică necesitatea unei mai bune înțelegeri a comportamentului IA, fără de care „nimeni nu poate garanta siguranța sau controlabilitatea viitoarelor modele de IA”.
Donează lunar pentru susținerea proiectului G4Media
Donează suma dorită pentru susținerea proiectului G4Media
CONT LEI: RO89RZBR0000060019874867
Deschis la Raiffeisen BankPentru a posta un comentariu, trebuie să te Înregistrezi sau să te Autentifici.