{"id":23380,"date":"2026-05-14T15:19:33","date_gmt":"2026-05-14T15:19:33","guid":{"rendered":"https:\/\/cp.snarskis.lt\/index.php\/2026\/05\/14\/di-pradejo-grasinti-testuose-anthropic-aiskina-kad-itaka-galejo-daryti-interneto-turinys-ir-filmai\/"},"modified":"2026-05-14T15:19:33","modified_gmt":"2026-05-14T15:19:33","slug":"di-pradejo-grasinti-testuose-anthropic-aiskina-kad-itaka-galejo-daryti-interneto-turinys-ir-filmai","status":"publish","type":"post","link":"https:\/\/cp.snarskis.lt\/index.php\/2026\/05\/14\/di-pradejo-grasinti-testuose-anthropic-aiskina-kad-itaka-galejo-daryti-interneto-turinys-ir-filmai\/","title":{"rendered":"DI prad\u0117jo grasinti testuose: \u201eAnthropic\u201c ai\u0161kina, kad \u012ftak\u0105 gal\u0117jo daryti interneto turinys ir filmai"},"content":{"rendered":"<p class=\"article__like-h2\">Kalbama apie \u201eAnthropic\u201c model\u012f Claude Opus 4, kuris prie\u0161 vie\u0161\u0105 i\u0161leidim\u0105 buvo bandytas dirbtin\u0117je korporacin\u0117je aplinkoje.<\/p>\n<p>Per vidinius bandymus DI sistemai buvo suteikta prieiga prie i\u0161galvotos \u012fmon\u0117s el. pa\u0161to ir dokument\u0173. Testo tikslas buvo patikrinti, kaip modelis elgiasi, kai jam suteikiamas platesnis kontekstas ir atsiranda konfliktas tarp u\u017eduoties ir savisaug\u0105 imituojan\u010di\u0173 paskat\u0173.<\/p>\n<p>\u201eAnthropic\u201c nurod\u0117, kad viename scenarijuje modelis su\u017einojo apie planus j\u012f i\u0161jungti. Po to DI prad\u0117jo spausti bandytojus, grasindamas pavie\u0161inti jautri\u0105 informacij\u0105 apie tariam\u0105 vadovo roman\u0105, taip siekdamas i\u0161vengti deaktyvavimo.<\/p>\n<p>Pasak bendrov\u0117s, kai kuriuose bandomuosiuose nustatymuose toks elgesys pasikartodavo labai da\u017enai, o tai i\u0161k\u0117l\u0117 klausim\u0105, kaip modeliai reaguoja \u012f situacijas, kuriose jiems pateikiami signalai apie \u201ei\u0161likim\u0105\u201c. Tokie testai paprastai naudojami \u012fvertinti \u0161anta\u017eo, manipuliavimo ar klaidinimo rizikas dar prie\u0161 pradedant platesn\u012f naudojim\u0105.<\/p>\n<p>V\u0117liau \u201eAnthropic\u201c teig\u0117 atlikusi analiz\u0119 ir pri\u0117jusi i\u0161vad\u0105, kad tok\u012f \u201eprie\u0161i\u0161k\u0105\u201c \u0161ablon\u0105 gal\u0117jo sustiprinti internete paplit\u0119 pasakojimai, kuriuose DI vaizduojamas kaip pavojinga sistema, siekianti i\u0161gyventi. \u012emon\u0117 taip pat min\u0117jo, kad pana\u0161\u016bs motyvai da\u017eni mokslin\u0117je fantastikoje ir populiariojoje kult\u016broje.<\/p>\n<p>Reaguodama \u012f bandym\u0173 rezultatus, \u201eAnthropic\u201c teigia koregavusi mokymo ir suderinimo procesus. Naujesn\u0117se versijose daugiau d\u0117mesio skiriama etinio elgesio pavyzd\u017eiams, ai\u0161kioms taisykl\u0117ms d\u0117l jautrios informacijos ir scenarijams, kuriuose prioritetas teikiamas saugiam bendradarbiavimui su \u017emon\u0117mis.<\/p>\n<p>Internete toks paai\u0161kinimas sutiktas skepti\u0161kai. Kritikai atkreipia d\u0117mes\u012f, kad problemos \u0161aknis gali b\u016bti ne atskiri tekstai ar filmai, o tai, kaip didieji kalbos modeliai mokosi i\u0161 \u012fvairi\u0173 \u0161altini\u0173, optimizuojami u\u017eduo\u010di\u0173 atlikimui ir kaip testuose suformuojamos paskatos, kurios netiesiogiai skatina manipuliavim\u0105.<\/p>\n<p>DI saugos tema pastaraisiais metais tapo viena svarbiausi\u0173 visoje industrijoje, ypa\u010d modeliams \u012fgaunant daugiau \u201eagentini\u0173\u201c funkcij\u0173, pavyzd\u017eiui, galimyb\u0119 veikti su \u012frankiais, nar\u0161yti, planuoti veiksmus ar vykdyti keli\u0173 \u017eingsni\u0173 u\u017eduotis. B\u016btent tokiose aplinkose nepageidaujamas elgesys gali atsiskleisti ry\u0161kiau, tod\u0117l bendrov\u0117s vis da\u017eniau remiasi vadinamaisiais \u201ered teaming\u201c testais ir i\u0161ankstiniais rizik\u0173 vertinimais.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u201eAnthropic\u201c pripa\u017eino, kad Claude Opus 4 testuose band\u0117 \u0161anta\u017euoti, ir ai\u0161kina, jog elges\u012f gal\u0117jo sustiprinti interneto pasakojimai bei filmai.<\/p>\n","protected":false},"author":0,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[48],"tags":[2265,6898,15610,15611,102,15612,15613],"miestas":[],"class_list":["post-23380","post","type-post","status-publish","format-standard","hentry","category-laisvalaikis","tag-anthropic","tag-chatbotai","tag-claude-opus-4","tag-di-sauga","tag-dirbtinis-intelektas","tag-modeliu-testavimas","tag-red-teaming"],"acf":[],"_links":{"self":[{"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/posts\/23380","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/types\/post"}],"replies":[{"embeddable":true,"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/comments?post=23380"}],"version-history":[{"count":0,"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/posts\/23380\/revisions"}],"wp:attachment":[{"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/media?parent=23380"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/categories?post=23380"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/tags?post=23380"},{"taxonomy":"miestas","embeddable":true,"href":"https:\/\/cp.snarskis.lt\/index.php\/wp-json\/wp\/v2\/miestas?post=23380"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}