Dirbtinis intelektas

Dirbtinis intelektas išmoko meluoti ir manipuliuoti: mokslininkai įspėja apie pavojų

(1)

Neuroniniai tinklai išmoko sistemingai meluoti pašnekovui, nors niekas specialiai jų to nemokė, o kai kuriais atvejais toks elgesys jiems net buvo uždraustas. Tai teigiama moksliniame straipsnyje, paskelbtame žurnale „Patterns“.

Masačusetso technologijos instituto (JAV) tyrėjų grupė pažymi, kad dirbtinis intelektas mokomas iš daugybės tekstų, kuriuose ne visada pateikiama patikima informacija.

Dėl šios priežasties neuroninis tinklas kartais gali pateikti klaidingą informaciją pašnekovui, nuoširdžiai manydamas, kad sako tiesą.

Tačiau naujas tyrimas rodo, kad kartais neuroninis tinklas gali meluoti visiškai „sąmoningai“.

Autoriai analizavo vadinamųjų didžiųjų kalbos modelių (tokių kaip GPT-4) ir modelių, apmokytų konkretesnėms užduotims (pavyzdžiui, žaisti vaizdo žaidimus ar prekiauti rinkoje), elgesį. 

Vienu iš tirtų atvejų GPT-4 neuroninis tinklas sugebėjo apgauti žmogų, priversdamas jį įveikti jam skirtą standartinę „captcha“ funkciją „Įrodyk, kad nesi robotas“.

Mokslininkai taip pat pamatė, kaip CICERO neuroninis tinklas nugalėjo žmones stalo žaidime „Diplomatija“, griebdamasis apgaulės.

Tyrėjai nustatė, kad žaisdamas kaip Prancūzija, kalbos modelis privertė Angliją (su žmogumi vaidmenyje) vesti slaptas derybas su Vokietija (kitu žmogumi).

Neuroninis tinklas taip pat pasiūlė Anglijai užpulti Vokietiją ir pažadėjo iš savo pusės apsiginti, o tada įspėjo Vokietiją apie galimą puolimą.

Tyrėjai nustatė, kad modernesniuose ir sudėtingesniuose neuroniniuose tinkluose polinkis apgaudinėti buvo didesnis.

Pasak mokslininkų, šie neuroniniai tinklai geriau randa veiksmingas elgesio strategijas, kurios savo ruožtu dažnai apima melą ir apsimetinėjimą.

Vis dėlto tyrimo autoriai paragino dirbtinio intelekto kūrėjus atkreipti dėmesį į tokį neuroninių tinklų elgesį.

Jų nuomone, būtina sukurti dirbtinio intelekto reguliavimo sistemą, nes jo gebėjimas apgaudinėti ir manipuliuoti gali sukelti rimtų pasekmių. 

Rašyti komentarą

Plain text

  • HTML žymės neleidžiamos.
  • Linijos ir paragrafai atskiriami automatiškai
  • Web page addresses and email addresses turn into links automatically.
Sidebar placeholder