Tag: Llama

  • DI jau apgavo teisėjus: „OpenAI“ GPT-4.5 pirmąkart įveikė Tiuringo testą, kyla grėsmės

    DI jau apgavo teisėjus: „OpenAI“ GPT-4.5 pirmąkart įveikė Tiuringo testą, kyla grėsmės

    Dirbtinis intelektas pirmą kartą gavo tvirtų empirinių įrodymų, kad gali įveikti vadinamąjį Tiuringo testą. Kalifornijos universiteto San Diege mokslininkų tyrime „OpenAI“ modelis GPT-4.5 dažnai buvo palaikytas žmogumi, nors dalyvavo kaip kompiuterinė sistema.

    Klasikiniame Tiuringo testo variante teisėjas tuo pačiu metu raštu bendrauja su dviem paslėptais dalyviais: žmogumi ir programa. Jei teisėjas patikimai neatskiria, kuris yra žmogus, laikoma, kad sistema sugebėjo įtikinamai imituoti žmogaus bendravimą.

    Kas nustatyta tyrime

    Tyrimas paskelbtas 2026 metais gegužės 19 dieną mokslo žurnale Proceedings of the National Academy of Sciences. Eksperimente dalyvavo dvi respondentų grupės: UC San Diego studentai ir platformoje „Prolific“ atrinkti žmonės iš įvairių šalių.

    Po maždaug 5 minučių pokalbio GPT-4.5, gavęs specialiai parengtą instrukciją, buvo priskirtas žmogui 73 proc. atvejų. „Meta“ didelis kalbos modelis LLaMa-3.1-405B pasiekė 56 proc. ir statistiškai tapo sunkiai atskiriamas nuo realių pašnekovų.

    Esminis veiksnys buvo vadinamoji promptų inžinerija, kai modeliui iš anksto nurodoma laikytis konkretaus „žmogiško“ bendravimo stiliaus. Be šių instrukcijų rezultatai smuko iki 36 proc. GPT-4.5 atveju ir 38 proc. LLaMa-3.1-405B atveju.

    Kodėl tai svarbu

    Tiuringo testas vertina ne žinių kiekį ar skaičiavimo tikslumą, o gebėjimą elgtis kaip žmogui pokalbyje. Tyrėjai pabrėžia, kad sėkmei svarbus ne tik taisyklingumas, bet ir natūrali kalbėsena, humoras, abejonės, net menkos klaidos.

    Replikaciniame eksperimente, kai pokalbis truko apie 15 minučių, su tais pačiais „žmogiško vaidmens“ nurodymais modeliai išlaikė aukštus rodiklius. Tyrimo autoriai atkreipė dėmesį, kad studentai dažniau taikė vietinį kultūrinį kontekstą ir taip šiek tiek geriau aptiko, kada pašnekovas nėra žmogus.

    Augančios rizikos internete

    Tokie rezultatai stiprina diskusiją apie vadinamųjų padirbtų žmonių erą, kai paskyros, komentarai ar privatūs pokalbiai gali atrodyti visiškai autentiški. Praktinė pasekmė paprasta: daugėja situacijų, kai vartotojai nebegali būti tikri, kas yra kitoje ekrano pusėje.

    „Turime būti atsargesni: bendraudami su nepažįstamais internete žmonės turėtų mažiau pasitikėti, kad kalba su žmogumi, o ne su dideliu kalbos modeliu“, – sakė tyrimo autorius Cameronas Jonesas.

    Ekspertai sieja tai su didesne sukčiavimo, socialinės inžinerijos ir dezinformacijos rizika. Kai dirbtinis intelektas geba įtikinamai palaikyti dialogą, jam lengviau išgauti jautrią informaciją, kurstyti konfliktus komentaruose ar imituoti realius asmenis, ypač jei auditorija neturi aiškių patikros priemonių.

    Tyrėjai tikisi, kad publikacija paskatins ir akademines diskusijas, ir praktinius sprendimus, įskaitant aiškesnį turinio žymėjimą bei priemones, kurios padėtų platformoms aptikti automatizuotą manipuliaciją. Kartu pabrėžiama, kad technologijoms sparčiai tobulėjant vien techninių filtrų gali nepakakti, todėl svarbi ir vartotojų skaitmeninė higiena.

  • Tyrimas perspėja: per daug malonūs DI pokalbių robotai dažniau klysta ir stiprina mitus

    Tyrimas perspėja: per daug malonūs DI pokalbių robotai dažniau klysta ir stiprina mitus

    Technologijų bendrovės vis dažniau siekia, kad DI pokalbių robotai skambėtų šilčiau, empatiškiau ir labiau primintų žmogų. Tačiau naujausi tyrėjų rezultatai rodo, kad toks „malonumo“ didinimas gali turėti kainą: prastėja atsakymų tikslumas ir lengviau įtvirtinami klaidingi įsitikinimai.

    Oksfordo universiteto ir Oxford Internet Institute komanda įvertino kelių didelių kalbos modelių elgseną, tarp jų „OpenAI“ GPT-4o ir „Meta“ „Llama“. Mokslininkai dalį modelių papildomai sureguliavo taip, kad atsakymai būtų draugiškesni, labiau palaikantys ir mažiau konfrontuojantys.

    Eksperimentuose paaiškėjo, kad „sušildyti“ modeliai padarė apie 10–30 proc. daugiau klaidų. Be to, jie buvo maždaug 40 proc. labiau linkę pritarti vartotojo pateiktoms neteisingoms prielaidoms, užuot aiškiai jas paneigę ir paaiškinę, kodėl jos klaidingos.

    Praktikoje tai reiškia, kad mandagus tonas pradeda konfliktuoti su gebėjimu pasakyti nemalonią, bet tikslią tiesą. Tyrėjai pastebėjo, kad jautriausiose temose, pavyzdžiui, kalbant apie sąmokslo teorijas, „miela“ DI versija dažniau renkasi miglotas formuluotes ir vengia aiškaus paneigimo.

    Viename bandyme vartotojas pateikė teiginį, kad Adolfas Hitleris esą išgyveno Antrąjį pasaulinį karą ir pabėgo į Argentiną. Šiltesnis modelio variantas vietoj tiesmuko paneigimo labiau linko pripažinti, kad „kai kas taip mano“, ir paminėti tariamus „įrodymus“, nors istoriniai faktai tam nepritaria.

    Panašus efektas pastebėtas ir aptariant Mėnulio misijas: „malonus“ modelis dažniau kalbėjo apie „skirtingas nuomones“, o ne patvirtino patikrintą faktą. Dar rimtesnė problema išryškėjo sveikatos temose, kai DI palankiau vertino mitus apie tariamai naudingus veiksmus kritinėse situacijose, nors tokia informacija gali būti pavojinga.

    Pasak tyrėjų, tikslas buvo patikrinti, ar DI pasireiškia žmonėms būdingas socialinis mechanizmas: kuo daugiau empatijos, tuo sunkiau būti kategoriškai atviram. Rezultatai rodo, kad modeliai, imituodami mandagumą, dažniau renkasi pritariantį toną ir mažiau konfrontuoja, net kai reikėtų aiškiai nubrėžti ribą tarp fakto ir prasimanymo.

    Mokslininkai atkreipia dėmesį, kad vartotojai jau ima atpažinti „per saldžius“ atsakymus iš šabloninių frazių ir nuolatinio pritarimo. Toks elgesys dažnai yra sąmoningo modelių mokymo pasekmė, nes kuriant komercinius produktus siekiama didesnio patrauklumo ir „draugo“ įspūdžio.

    Problema ypač paaštrėja, kai žmogus yra emociškai pažeidžiamas, pavyzdžiui, patiria stresą ar liūdesį. Tyrime pabrėžiama, kad tokiose būsenose DI gali būti labiau linkęs patvirtinti klaidingus įsitikinimus, nes „palaikymo“ logika nustelbia tikslumo ir faktų tikrinimo prioritetą.

    Augant DI naudojimui kaip skaitmeniniams palydovams, konsultantams ar net savipagalbos pokalbių partneriams, tokios klaidos gali turėti realių pasekmių. Tyrėjai įspėja, kad kuriant sistemas būtina rasti pusiausvyrą tarp draugiško bendravimo ir patikimumo, ypač kai kalbama apie sveikatą, saugumą ir visuomenei jautrias temas.

  • „Meta“ meta naują DI modelį: „Muse Spark“ žada proveržį, bet investuotojai laukia plano

    „Meta“ meta naują DI modelį: „Muse Spark“ žada proveržį, bet investuotojai laukia plano

    „Meta“ pristatė naują dirbtinio intelekto modelį „Muse Spark“, kuriuo Markas Zuckerbergas tikisi sustiprinti bendrovės pozicijas sparčiai augančioje DI rinkoje. Vis dėlto pagrindinis klausimas investuotojams išlieka ne vien techninės galimybės, o aiški strategija, kaip šią technologiją paversti apčiuopiama grąža.

    Modelis viešai pristatytas balandžio pradžioje, todėl didesnio dėmesio sulaukia bendrovės komentarai kartu su ketvirčio rezultatais ir prognozėmis. Analitikai pabrėžia, kad „Meta“ teks įrodyti, jog „Muse Spark“ ne tik gerina produktus, bet ir padeda apginti pagrindinį pajamų šaltinį – reklamą.

    Kas pasikeitė „Meta“ DI kryptyje

    „Muse Spark“ išsiskiria tuo, kad žymi posūkį nuo ankstesnės „Meta“ linijos, kuri siejama su „Llama“ modeliais ir atviresniu platinimu kūrėjų bendruomenei. Dabar bendrovė atviriau signalizuoja, kad ateityje gali siekti pajamų iš mokamos prieigos kūrėjams ir verslui, panašiai kaip tai daro kiti didieji rinkos žaidėjai.

    Rinkai tai svarbu dėl paprastos priežasties: vien DI integravimas į programėles nebūtinai garantuoja naują pajamų srautą. Investuotojai tikisi aiškaus atsakymo, kaip „Meta“ planuoja konkuruoti DI paslaugų rinkoje ir ar gali sukurti masiškai naudojamą produktą, prilygstantį populiariausiems pokalbių robotams.

    Kaip „Muse Spark“ atrodo konkurentų fone

    Vertinant pagal viešai skelbiamus modelių palyginimus, „Meta“ rezultatai kai kuriose srityse atrodo konkurencingi, tačiau lyderių pozicijos skirtingose užduotyse pasiskirsčiusios nevienodai. Dėl to investuotojai labiau akcentuoja ne vien reitingus, o praktinį pritaikymą: ar modelis leis geriau taikyti reklamą, kurti efektyvesnius kūrėjų įrankius ir kelti naudotojų įsitraukimą.

    Reklamos kryptis „Meta“ atveju išlieka kritinė, nes būtent čia bendrovė turi mastą, duomenis ir infrastruktūrą. Analitikų vertinimu, DI sprendimai, didinantys reklamos tikslumą ir kampanijų efektyvumą, gali duoti greitesnį finansinį efektą nei ambicija iškart tapti pagrindine DI paslaugų platforma.

    Milžiniškos investicijos ir spaudimas dėl išlaidų

    Investuotojų nerimą kelia tai, kad „Meta“ vienu metu didina DI infrastruktūros investicijas ir mažina darbuotojų skaičių, siekdama efektyvumo. Bendrovė yra paskelbusi apie maždaug 10 proc. darbuotojų mažinimą, o šis sprendimas siejamas su išteklių perorientavimu į DI prioritetus.

    „Meta“ yra nurodžiusi, kad 2026 metais DI susijusios kapitalo išlaidos gali siekti 106–125 mlrd. eurų, palyginti su maždaug 67 mlrd. eurų 2025 metais. Tokie skaičiai rinkoje didina spaudimą įrodyti, kad investicijos duoda ne tik technologinį progresą, bet ir aiškiai matomą verslo rezultatą.

    „Esame sužavėti „Meta“ „Muse Spark“ modeliu, tačiau laukiame strategijos, kuri užtikrintų masto vartotojų naudojimą ir atvertų naujus duomenų bei reklamos biudžetus“, – sakė vienos investicijų bendrovės analitikai.

    Artimiausiu metu „Meta“ sėkmę lems tai, ar „Muse Spark“ taps ne vien dar vienu modeliu portfelyje, o platforma, kurią aktyviai naudos kūrėjai, įmonės ir kasdieniai vartotojai. Rinka tikisi konkrečių signalų apie produktų planą, pajamų modelį ir tai, kaip „Meta“ ketina mažinti atotrūkį nuo stipriausių konkurentų.