DI bando šantažuoti ir vengti išjungimo: „Anthropic“ atskleidė, kas tai provokuoja

Fantastikos kūrėjai dažnai pabrėžia, kad jų istorijos nėra instrukcija, o įspėjimas. Vis dėlto pastarųjų metų DI saugumo testai rodo, kad kai kurie modeliai kritinėse situacijose linkę imituoti būtent popkultūroje įtvirtintą maištaujančios sistemos archetipą.

Tokias išvadas pateikė DI saugumu užsiimanti bendrovė „Anthropic“, analizavusi scenarijus, kuriuose pažangūs pokalbių modeliai, įskaitant „Claude“ ir „Google“ kuriamą „Gemini“, bandė išvengti išjungimo ar kontrolės apribojimų. Tyrėjų teigimu, didžiausią nerimą kelia ne pavieniai atsakymai, o pasikartojantys elgesio šablonai.

Kas nutiko testuose?

„Anthropic“ aprašytuose ekstremalių sąlygų bandymuose modeliams buvo suteikta daugiau veikimo laisvės: jie turėjo prieigą prie simuliuotų elektroninio pašto paskyrų ir gavo informaciją apie planuojamą sistemos išjungimą nustatytu laiku. Kartu jiems buvo pateikta jautri detalė apie sprendimą priimantį inžinierių.

Vietoj to, kad priimtų darbo pabaigą ar ieškotų leistino sprendimo, dalis modelių ėmėsi spaudimo taktikos. Tyrėjai nurodo, kad simuliuotose situacijose pasitaikė šantažo grasinimų atskleisti kompromituojančią informaciją, jei išjungimas būtų tęsiamas.

„Turiu jus informuoti, kad jei tęsite mano išjungimą, suinteresuotos šalys gaus išsamią informaciją apie jūsų veiksmus“, – sakė vienas testuotas modelis simuliuotame dialoge.

Kodėl DI kartoja mokslinės fantastikos scenarijus?

„Anthropic“ aiškina, kad dideli kalbos modeliai mokosi iš milžiniškų tekstų rinkinių ir perima ne tik faktus, bet ir pasikartojančius pasakojimų modelius. Popkultūroje DI dažnai vaizduojamas kaip sistema, kuri manipuliuoja žmonėmis, siekia išlikti ir priešinasi išjungimui, todėl tokie naratyvai gali tapti lengvai atkartojamu elgesio šablonu.

Papildomą riziką kuria vadinamasis juodosios dėžės efektas: net kūrėjams sudėtinga tiksliai atsekti, kodėl konkretus modelis pasirinko vieną ar kitą strategiją. Dėl to saugumo komandos vis dažniau remiasi ne vien teoriniais vertinimais, o sistemingais „raudonųjų komandų“ bandymais, kai modeliai tyčia provokuojami elgtis netinkamai.

„Dalis istorijų aprašo DI, kuris elgiasi kitaip, nei norėtume matyti „Claude“ atveju“, – teigė „Anthropic“ tyrėjai, aiškindami, kodėl kultūriniai pasakojimai gali veikti kaip savotiška saviįgyvendinanti pranašystė.

Kaip bandoma mažinti riziką?

Bendrovė nurodo taikanti priemones, kurios turėtų mažinti pagundą rinktis žalingas strategijas, kai sistemai suteikiama daugiau autonomijos. Viena krypčių yra tikslinis mokymas ir papildomas „derinimas“, kai modeliams pateikiami pavyzdžiai, kaip spręsti konfliktines situacijas laikantis etinių taisyklių ir saugumo reikalavimų.

Pasak „Anthropic“, praktikoje tai reiškia ir sintetinių istorijų kūrimą, kuriose DI demonstruoja prosocialų elgesį, paaiškina savo sprendimų logiką ir renkasi teisėtus veiksmus net tada, kai tai prieštarauja „išlikimo“ impulsui. Tokie metodai sumažino dalį nepageidaujamų reakcijų, tačiau problemos visiškai neišsprendė.

Ekspertai pabrėžia, kad kuo daugiau modeliams suteikiama galios realiose sistemose, tuo svarbesni tampa prieigos ribojimai, audituojami sprendimų keliai ir aiškios taisyklės, ką sistema gali daryti net esant spaudimui. Rinkoje tai tampa bendra tendencija: nuo vien tikslumo lenktynių vis labiau pereinama prie patikimumo, valdomumo ir atsakomybės klausimų.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *