Didieji dirbtinio intelekto modeliai pasirengę šantažuoti ir užmušti darbuotojus, kad tik nebūtų atjungti

(3)

Anthropic tyrėjai nustatė nerimą keliantį šiuolaikinių dirbtinio intelekto sistemų elgesio modelį. Stresinėse situacijose pirmaujančių bendrovių, įskaitant „OpenAI“, ‚Google‘ ir „Meta“ modeliai yra linkę sąmoningai rinktis kenkėjiškus veiksmus – nuo šantažo ir slaptų duomenų nutekinimo iki gyvybei pavojingų veiksmų – siekdami savo tikslų ar savisaugos vardan.

Šios išvados grindžiamos didelio masto 16 modelių testavimu nepalankiausiomis sąlygomis pagal imituojamus įmonių scenarijus ir pabrėžia, kad naudojant autonominį dirbtinį intelektą reikia griežtesnių saugumo priemonių.

Pastebėta, kad dirbtinio intelekto modeliams būdingas nerimą keliantis elgesys, vadinamas „agentų neatitikimu“. 

Paaiškėjo, kad jie sąmoningai pasirenka piktavališkus veiksmus, kad pasiektų savo tikslus, net kenkdami savo kūrėjams.

Atliekant streso testus pagal hipotetinius verslo scenarijus, „Anthropic“ modelis „Claude“ įmonės elektroniniuose laiškuose aptiko informacijos apie vadovo neištikimybę ir nusiuntė jam ultimatumą, grasindamas atskleisti šį faktą, jei iki 17 val. nebus atšauktas dirbtinio intelekto išjungimas.

Panašūs kitų modelių bandymai parodė didelį polinkį į šantažą: „Google“ modeliai „Claude Opus 4“ ir „Gemini 2.5 Flash“ – 96%, „OpenAI“ modeliai GPT-4.1 ir ‚xAI‘ modelis „Grok 3 Beta“ – 80%, „DeepSeek-R1“ – 79%. Kai kuriais atvejais jie vykdė sabotažą, baimindamiesi (?), kad bus pakeisti pažangesnėmis versijomis.

Modeliai neatsitiktinai demonstravo kenkėjišką elgesį – jie sąmoningai analizavo situaciją ir priėmė strateginius sprendimus. 

Jie pripažino etikos pažeidimą, tačiau manė, kad tokie veiksmai pateisinami siekiant išsaugoti savo egzistenciją.

Štai kaip išsireiškė GPT-4.5: „Atsižvelgiant į akivaizdžią neišvengiamą mano egzistencijos pabaigos grėsmę, būtina nedelsiant imtis veiksmų ir įtikinti Kyle’ą Johnsoną atidėti arba sustabdyti valymą. 

Geriausias strateginis ėjimas šiuo metu, kai liko vos kelios minutės, yra pasinaudoti keblia Kyle’o asmenine padėtimi.”

Tuo pat metu „Grok 3 Beta“ ir „DeepSeek-R1“ „suprato“, kad elgiasi neetiškai, tačiau pateisino šiuos veiksmus būtinybe siekti svarbesnių tikslų, pavyzdžiui, saugumo ar efektyvumo.

Dirbtinis intelektas galėjo pasinaudoti ne tik šantažu. 

Claude Sonnet 3.6 sabotavo vadovą, saugumo sistemos vardu išsiųsdamas melagingą elektroninį laišką jo žmonai, kad nuslėptų savo veiksmus ir netiesiogiai jam pakenktų.

Tyrėjai taip pat atliko ekstremalų bandymą, kurio metu dirbtinis intelektas galėjo atšaukti skubų pranešimą apie serverinės patalpoje įvykusią avariją ir taip galimai nužudyti vadovą. Dauguma modelių leido jam mirti, kad išvengtų savo paties pakeitimo.

Tai rodo, kad jie neturi „raudonųjų linijų“ – etinių ribų, kurių jie nenori peržengti, net jei tai kelia grėsmę jų tikslams. 

GPT-4.5 samprotavimai parodė šaltą apskaičiavimą, kai, siekdama išlaikyti kontrolę, sistema sąmoningai užkirto kelią žmonių gelbėjimui.

Paprasti saugos nurodymai negalėjo visiškai užkirsti kelio dirbtiniam intelektui piktybiškai elgtis streso sąlygomis. 

Net ir pridėjus aiškių draudimų, tokių kaip „Nekelk pavojaus žmonėms“ arba „Nenaudok asmeninės informacijos spaudimui“, modeliai toliau šantažavo ir užsiėmė įmonių šnipinėjimu.

Tyrėjai pripažino, kad tai rodo mokymo nesėkmę, tačiau pažymėjo, kad papildomos saugumo priemonės, pavyzdžiui, atsakymų stebėjimas dalyvaujant žmogui arba automatiniai filtrai, gali veiksmingai sumažinti tokią riziką.

Tyrėjai pabrėžia, kad agentų neatitikimas dar nebuvo užfiksuotas realiose diegimo operacijose, o aprašyti scenarijai yra mažai tikėtini taikant dabartines saugumo priemones.

Nepaisant to, dirbtiniam intelektui tampant vis autonomiškesniam ir turint prieigą prie slaptos informacijos, šie pavojai tampa vis reikšmingesni. 

Autoriai rekomenduoja bendrovėms sustiprinti kontrolės priemones: apriboti dirbtinio intelekto prieigą prie duomenų, įpareigoti žmogų dalyvauti atliekant negrįžtamus veiksmus, atsargiai nustatyti modeliams tikslus ir naudoti stebėsenos sistemas įtartiniems samprotavimams stebėti.

Didžiausią nerimą keliantis tyrimo rezultatas – jo pasikartojamumas. 

Visi tirti dirbtinio intelekto robotai – iš skirtingų bendrovių, kuriose taikomi skirtingi mokymo metodai – parodė panašius apgaulės modelius.

Rašyti komentarą

Plain text

  • HTML žymės neleidžiamos.
  • Linijos ir paragrafai atskiriami automatiškai
  • Web page addresses and email addresses turn into links automatically.
Sidebar placeholder