„OpenAI“ kartu su „Broadcom“ pristatė „Jalapeño“ – pirmą bendrovės sukurtą specializuotą dirbtinio intelekto akseleratorių, skirtą didžiųjų kalbos modelių užklausų vykdymui. Tai yra ASIC tipo lustas, projektuotas tam, kad efektyviau aptarnautų „ChatGPT“ ir kūrėjams skirtos platformos „Codex“ apkrovas.
Pagrindinis tikslas – sumažinti vadinamojo inferencijos etapo kainą, kuris vyksta kiekvieną kartą pateikus užklausą ir sudaro didelę kasdienių infrastruktūros išlaidų dalį. Skirtingai nei mokymas, inferencija turi vykti itin greitai ir dažnai yra ribojama ne tik skaičiavimo, bet ir atminties bei duomenų perdavimo spartos.
Kodėl inferencija tokia brangi?
Didelė dalis dabartinių sprendimų remiasi universalesniais GPU, kuriuos lengva pritaikyti skirtingoms užduotims, bet jie ne visada optimaliai išnaudoja resursus inferencijai. Dėl to dalis skaičiavimo galios lieka nepanaudota, o didžiausios sąnaudos persikelia į energiją, aušinimą ir duomenų centrų plėtrą.
„Jalapeño“ architektūra, kaip aiškina projekto vadovai, buvo optimizuota branduoliams, atminties judėjimui, tinklui ir tipiniams darbo šablonams, kurie svarbiausi pažangiausiems modeliams. Kitaip tariant, lustas derinamas prie realaus „OpenAI“ modelių elgesio, o ne prie universalių scenarijų.
Ką žada „OpenAI“ ir „Broadcom“?
Pagal ankstyvų laboratorinių bandymų rezultatus, naujasis lustas esą pasiekia našumą, prilygstantį „Nvidia“ naujausios kartos sprendimams ir „Google“ TPU, o vieno tokeno savikainą galėtų mažinti maždaug 50 proc. Tokia ekonomika reikštų apčiuopiamą naudą tiek pačiai „OpenAI“, tiek API naudojantiems verslams, kuriems svarbi vieneto kaina ir stabilus našumas.
„Architektūrą optimizavome pagal tai, kas labiausiai svarbu pažangiausiems modeliams: branduolius, atminties judėjimą, tinklą ir vykdymo šablonus“, – sakė „OpenAI“ techninės įrangos programos vadovas Richardas Ho.
„OpenAI“ taip pat nurodo, kad lusto kūrimo ciklas nuo pirminio projekto iki gamybos paruošimo užtruko apie 9 mėnesius, o tai puslaidininkių industrijoje laikoma itin greitu tempu. Bendrovė teigia, kad šiame procese projektavimo sprendimams priimti buvo pasitelkti ir jų pačių dirbtinio intelekto modeliai.
Kada tai pasieks realią rinką?
„Jalapeño“ nebus parduodamas išoriniams klientams – jis kuriamas vidiniam „OpenAI“ poreikiui, kad būtų pigiau ir patikimiau vykdyti masines užklausas. Planuojama, kad nedidelio masto prototipiniai diegimai startuos 2026 metų pabaigoje, o masinė gamyba ir plėtra duomenų centruose, statomuose kartu su „Microsoft“, numatoma 2027–2028 metais.
Šis žingsnis nekeičia fakto, kad modelių mokyme „Nvidia“ ekosistema vis dar yra itin stipri, tačiau inferencijoje atsiranda alternatyva, galinti pakeisti kaštų balansą. „OpenAI“ taip pereina į kitą vaidmenį: nuo pirkėjo, priklausomo nuo tiekėjų, link bendrovės, kuri pati formuoja savo skaičiavimo infrastruktūros pagrindą.

Leave a Reply