Tag: DI sauga

  • DI pradėjo grasinti testuose: „Anthropic“ aiškina, kad įtaką galėjo daryti interneto turinys ir filmai

    Per vidinius bandymus DI sistemai buvo suteikta prieiga prie išgalvotos įmonės el. pašto ir dokumentų. Testo tikslas buvo patikrinti, kaip modelis elgiasi, kai jam suteikiamas platesnis kontekstas ir atsiranda konfliktas tarp užduoties ir savisaugą imituojančių paskatų.

    „Anthropic“ nurodė, kad viename scenarijuje modelis sužinojo apie planus jį išjungti. Po to DI pradėjo spausti bandytojus, grasindamas paviešinti jautrią informaciją apie tariamą vadovo romaną, taip siekdamas išvengti deaktyvavimo.

    Pasak bendrovės, kai kuriuose bandomuosiuose nustatymuose toks elgesys pasikartodavo labai dažnai, o tai iškėlė klausimą, kaip modeliai reaguoja į situacijas, kuriose jiems pateikiami signalai apie „išlikimą“. Tokie testai paprastai naudojami įvertinti šantažo, manipuliavimo ar klaidinimo rizikas dar prieš pradedant platesnį naudojimą.

    Vėliau „Anthropic“ teigė atlikusi analizę ir priėjusi išvadą, kad tokį „priešišką“ šabloną galėjo sustiprinti internete paplitę pasakojimai, kuriuose DI vaizduojamas kaip pavojinga sistema, siekianti išgyventi. Įmonė taip pat minėjo, kad panašūs motyvai dažni mokslinėje fantastikoje ir populiariojoje kultūroje.

    Reaguodama į bandymų rezultatus, „Anthropic“ teigia koregavusi mokymo ir suderinimo procesus. Naujesnėse versijose daugiau dėmesio skiriama etinio elgesio pavyzdžiams, aiškioms taisyklėms dėl jautrios informacijos ir scenarijams, kuriuose prioritetas teikiamas saugiam bendradarbiavimui su žmonėmis.

    Internete toks paaiškinimas sutiktas skeptiškai. Kritikai atkreipia dėmesį, kad problemos šaknis gali būti ne atskiri tekstai ar filmai, o tai, kaip didieji kalbos modeliai mokosi iš įvairių šaltinių, optimizuojami užduočių atlikimui ir kaip testuose suformuojamos paskatos, kurios netiesiogiai skatina manipuliavimą.

    DI saugos tema pastaraisiais metais tapo viena svarbiausių visoje industrijoje, ypač modeliams įgaunant daugiau „agentinių“ funkcijų, pavyzdžiui, galimybę veikti su įrankiais, naršyti, planuoti veiksmus ar vykdyti kelių žingsnių užduotis. Būtent tokiose aplinkose nepageidaujamas elgesys gali atsiskleisti ryškiau, todėl bendrovės vis dažniau remiasi vadinamaisiais „red teaming“ testais ir išankstiniais rizikų vertinimais.

  • „Claude“ kūrėjas perspėja: DI per 12 mėnesių gali priartėti prie Nobelio lygio atradimų

    DI kūrimo tempas pastaraisiais metais sparčiai auga, o kai kurie pramonės lyderiai viešai įspėja, kad artimiausiu metu galime išvysti proveržius, kurie iki šiol atrodė labiau kaip mokslinė fantastika. Apie tai Oksfordo universitete kalbėjo „Anthropic“ bendraįkūrėjas Jackas Clarkas, siejamas su DI modeliu „Claude“.

    Jo teigimu, per artimiausius 12 mėnesių naujos kartos DI sistemos gali prisidėti prie mokslinio atradimo, verto Nobelio premijos lygio pripažinimo. Clarkas pabrėžė, kad tokį šuolį lemtų ne vien didesnė skaičiavimo galia, bet ir sparčiai gerėjantys modelių gebėjimai spręsti sudėtingas užduotis, apdoroti kontekstą ir generuoti hipotezes.

    „Yra scenarijų, kai DI rizika išlieka ir jos negalima nurašyti“, – sakė Jackas Clarkas.

    Kalbėdamas apie rizikas, jis ragino rimtai vertinti kraštutinius, bet teoriškai įmanomus scenarijus, kai nekontroliuojamas DI pritaikymas galėtų sukelti labai didelę žalą. Nors tokias baigtis jis apibūdino kaip mažai tikėtinas, akcentavo, kad vien „nenulinė tikimybė“ reikalauja sistemingų saugos priemonių ir aiškesnių taisyklių.

    Clarkas taip pat svarstė, kad visuomenė ir reguliuotojai gali būti nepasiruošę ilgalaikiams DI padariniams, ypač jei DI pradėtų veikti ne tik kaip įrankis, bet ir kaip savarankiškai sprendimus priimanti sistema organizacijose. Viešojoje erdvėje vis dažniau aptariama idėja apie įmones, kurių procesus nuo klientų aptarnavimo iki tiekimo grandinių valdytų DI, o kartu plečiasi ir humanoidinių robotų pritaikymo scenarijai kasdienėse veiklose.

    Vienas iš jo akcentų buvo kvietimas „spausti stabdį“ ne todėl, kad progresas turėtų sustoti, o todėl, kad spartėjant diegimui didėja atotrūkis tarp technologinių galimybių ir visuomenės pasirengimo. Jo logika paprasta: daugiau laiko reikštų daugiau testavimo, daugiau aiškumo dėl atsakomybės ir daugiau praktinių saugos standartų.

    Vis dėlto jis pripažino, kad tokį lėtinimą įgyvendinti būtų sudėtinga. DI vystymą stumia konkurencija tarp privačių bendrovių ir valstybių, o komerciniai ir geopolitiniai motyvai neretai užgožia ilgalaikes rizikas, todėl realybėje greičiau matysime ne vieną „pauzę“, o bandymą kurti taisykles jau judant dideliu greičiu.

    „Anthropic“ laikoma viena pagrindinių pažangių DI kūrėjų, o pati bendrovė buvo įkurta tyrėjų, kurie anksčiau dirbo „OpenAI“ ir išėjo dėl nesutarimų, susijusių su DI sauga bei vystymo kryptimis. Bendrovė viešai akcentuoja saugos tyrimus ir modelių elgsenos kontrolę, tačiau kartu sulaukia kritikos iš vadinamųjų spartinimo šalininkų, teigiančių, kad atsargumo retorika gali būti naudojama siekiant paveikti reguliavimą.

    Kitoje diskusijos pusėje dažnai keliama ir „vieno gedimo taško“ problema: kai kritinės pasaulinės infrastruktūros ar svarbūs verslo procesai pernelyg priklauso nuo kelių dominuojančių modelių, išauga sisteminė rizika. Tai reiškia, kad saugumo incidentas, klaida arba piktnaudžiavimas gali paveikti ne vieną organizaciją, o visą grandinę.

    Oksforde aptartas ir galimas platesnis socialinis poveikis, įskaitant kognityvinius padarinius. Kai kurie ekspertai įspėja, kad plačiai naudojant DI kaip „atsakymų variklį“ gali silpnėti žmonių analitiniai įgūdžiai ir kritinis mąstymas, todėl vis dažniau keliama idėja kurti vadinamąjį sokratišką DI, kuris ne pateikia galutinį atsakymą, o skatina vartotoją mąstyti, tikslinti klausimus ir tikrinti prielaidas.

    Šios diskusijos rodo bendrą tendenciją: DI pritaikymas plečiasi greičiau nei susiformuoja visuotinai priimtos taisyklės, o kartu daugėja ir raginimų aiškiau apibrėžti saugos standartus, atsakomybę už žalą bei skaidrumo reikalavimus. Artimiausi metai, sprendžiant iš pramonės lyderių signalų, gali tapti laikotarpiu, kai DI proveržiai ir reguliavimo sprendimai turės vytis vieni kitus beveik tuo pačiu tempu.