Lenkiškas DI, kurį augina bendruomenė
Lenkijoje kuriamas kalbos modelis Bielik.AI vis dažniau minimas kaip pavyzdys, kaip atviro tipo projektas gali judėti į priekį ne tik įmonės, bet ir plačios bendruomenės pastangomis. Apie projekto kryptį ir iššūkius viešai kalba vienas jo bendraautorių Sebastianas Kondrackis, siejamas su fondu SpeakLeash ir technologijų bendrove „Deviniti“.
Jo teigimu, Bielik.AI branduolį sudaro nedidelė komanda, kuri tiesiogiai treniruoja modelį, o aplink ją susiformavusi daug platesnė ekosistema kuria įrankius, testuoja, rengia demonstracijas ir perduoda grįžtamąjį ryšį. Toks organizavimo principas leidžia greičiau pastebėti klaidas, patikrinti idėjas ir adaptuoti sprendimus realioms užduotims.
Pasak Kondrackio, aktyvi bendruomenė jau skaičiuoja apie 5 000 žmonių. Jie dalijasi pastebėjimais, lygina rezultatą su kitais modeliais, o dalis narių padeda projektą „įnešti“ į organizacijas, kuriose dirba.
Nuo lenkų kalbos iki daugiau nei 30 kalbų
Bielik.AI pradžioje orientavosi į lenkų kalbą, tačiau projektas ėmė plėstis, kai komanda įvertino, kad jų duomenų paruošimo, valymo ir klasifikavimo metodai gali būti pritaikomi ir kitoms kalboms. Dėl to modelis palaipsniui tapo daugiakalbis.
Skelbiama, kad šiuo metu Bielik.AI apima daugiau nei 30 natūralių kalbų, o vienas artimiausių tikslų yra auginti naudotojų ir kūrėjų ratą ne tik Lenkijoje, bet ir plačiau Europoje. Praktinis šio žingsnio motyvas aiškus: kuo platesnė naudotojų bazė, tuo daugiau realių scenarijų, testų ir pastabų, padedančių gerinti kokybę.
Plėtra į kitas kalbas taip pat suteikia galimybę konkuruoti ne „viena prieš vieną“ su didžiaisiais pasauliniais tiekėjais, o ieškoti nišų, kur svarbus lokalus kontekstas, terminija ir duomenų sauga.
Verslas domisi, bet dažnai pritrūksta pasirengimo
Kondrackis atkreipia dėmesį, kad daugelis organizacijų DI diegimą pradeda nuo noro neatsilikti nuo mados, tačiau ne nuo aiškiai suformuluoto poreikio. Tokiais atvejais rizika didelė: pasirenkamas netinkamas panaudojimo atvejis, o projektas nepasiekia laukiamos grąžos.
Anot jo, dažnai trūksta ne vien techninių, bet ir organizacinių kompetencijų: kaip parinkti užduotį, kaip apibrėžti sėkmės rodiklius, kaip paruošti duomenis, kaip suvaldyti rizikas. Tai ypač aktualu generatyvinio DI atvejais, kai sprendimų kokybė priklauso nuo konteksto, o klaidos gali turėti reputacinių ar teisinių pasekmių.
„Daugelis vertina DI per „ChatGPT“ prizmę ir nori tokio pat sprendimo savo organizacijoje, tačiau tuomet atsiranda kainos, reguliavimo ir jautrių duomenų klausimai“, – sakė Sebastianas Kondrackis.
Skaitmeninė suverenija ir infrastruktūros kaina
Viešojoje diskusijoje apie Europos skaitmeninę suvereniją vis dažniau akcentuojama, kad kritinėse srityse svarbu turėti alternatyvą globalioms platformoms. Kondrackis pabrėžia, kad jautrių duomenų atvejais daliai organizacijų aktualu DI sprendimus vykdyti savo infrastruktūroje, o ne vien viešojoje debesijoje.
Jo vertinimu, Lenkijoje jau susiformavo keli centrai, kuriantys kompaktiškesnius kalbos modelius, galinčius tapti pagrindu lokalioms iniciatyvoms. Tačiau pagrindinis stabdis išlieka skaičiavimo galia: galingų serverių, akseleratorių ir kitos infrastruktūros poreikis auga, o dėl DI paklausos bumo komponentų kainos kyla visoje Europoje.
Tai reiškia, kad net ir turint talentų bei aktyvią bendruomenę, ilgalaikis proveržis priklausys nuo to, ar pavyks užsitikrinti pakankamus skaičiavimo resursus. Kartu tai tampa ir strateginiu klausimu valstybėms bei regionui, siekiančiam mažinti priklausomybę nuo riboto skaičiaus pasaulinių tiekėjų.
Leave a Reply