Tag: Kompiuterinė rega

  • Krokuvos studentai sukūrė DI programėlę: gestų kalbą verčia į tekstą realiuoju laiku

    Krokuvos studentai sukūrė DI programėlę: gestų kalbą verčia į tekstą realiuoju laiku

    Trys Krokuvos studentai sukūrė programėlę, kuri pasitelkdama DI iš vaizdo kameros atpažįsta gestų kalbos abėcėlę ir ją paverčia ekrane rodomu tekstu. Projekto tikslas – palengvinti bendravimą tarp girdinčių ir negirdinčių žmonių kasdienėse situacijose.

    Sistema analizuoja rankų vaizdą, identifikuoja 21 būdingą plaštakos tašką ir stebi jų padėtį bei judesį laike. Remdamasi šiais duomenimis ji atpažįsta konkrečią raidę arba tarpą, o rezultatą pateikia kaip tekstą telefone ar kompiuteryje.

    Kūrėjai pabrėžia, kad naudojami du DI modeliai: vienas patikrina, ar judesys iš tiesų yra gestas, kitas priskiria jam raidę. Toks sprendimas padeda sumažinti klaidų skaičių ir išvengti atsitiktinių atpažinimų, kai ranka patenka į kadrą, bet žmogus nekomunikuoja gestų kalba.

    Projektas atsirado reaguojant į plačiai paplitusią socialinę problemą. Pasaulio sveikatos organizacijos duomenimis, daugiau nei 430 mln. žmonių pasaulyje dėl reikšmingo klausos sutrikimo reikia reabilitacijos, o Pasaulio kurčiųjų federacija skaičiuoja, kad gestų kalbomis naudojasi per 70 mln. žmonių.

    Šiuo metu programėlė atpažįsta pavienes gestų kalbos abėcėlės raides, tačiau komanda planuoja pereiti prie žodžių ir sakinių, kad įrankis tiktų natūralesniam dialogui. Taip pat svarstoma sukurti trimatį avatarą, kuris tekstą pateiktų gestų kalba, bei integruoti sprendimą su interneto komunikatoriais ir vaizdo konferencijų platformomis.

    Kūrėjai pripažįsta, kad dabartinė versija dar nėra galutinis produktas, o veikimui realiose situacijose būtini platesni bandymai su vartotojais. Jų vertinimu, platesniems testams tinkama versija galėtų atsirasti per 9–12 mėnesių.

  • Study finds AI still struggles to read social cues in video, a hurdle for self-driving cars and robots

    Humans still outperform today’s artificial intelligence at interpreting social interactions in moving scenes, a skill that underpins safer self-driving cars and more helpful assistive robots. New research from Johns Hopkins University suggests many leading models miss context that people grasp quickly.

    The team examined how well AI systems can infer intentions, relationships, and ongoing actions when people share a scene. These judgments help determine whether two pedestrians are chatting, about to cross the street, or reacting to one another.

    Testing AI against human perception

    In the study, participants watched three-second video clips and rated social features on a one-to-five scale. The clips showed people interacting, doing side-by-side activities, or acting independently.

    Researchers then asked more than 350 AI language, video, and image models to predict human ratings and expected brain responses. For large language models, the systems evaluated short, human-written captions describing the videos.

    Where models fell behind

    People largely agreed with one another across questions, but the AI models did not show the same consistency, regardless of size or training data. Video models often struggled to describe what people were doing, and image models given still frames could not reliably detect communication.

    Language models were comparatively better at predicting how humans would judge behavior, while video models were more aligned with predicted neural activity. Even so, none of the model types matched human responses across the board.

    Why reading the room is hard

    The researchers argue the gap highlights a difference between recognizing objects in static images and understanding the unfolding story in real life. They suggest a potential cause is that many AI architectures draw inspiration from brain systems tuned for static vision rather than dynamic social scenes.

    Lead author Leyla Isik said an autonomous vehicle needs to read intentions and goals, not just identify people and objects. Co-first author Kathy Garcia added that social relationships, context, and dynamics appear to be a persistent blind spot in current model development.

    The findings are being presented at the International Conference on Learning Representations, where researchers will discuss implications for AI that must interact safely with humans. The work adds to a growing body of evidence that high scores on benchmarks do not always translate to robust real-world understanding.

  • Šveicarų lustų startuolis „Mosaic SoC“ pritraukė 3,2 mln. eurų erdviniam intelektui taupiuose įrenginiuose

    Šveicarų lustų startuolis „Mosaic SoC“ pritraukė 3,2 mln. eurų erdviniam intelektui taupiuose įrenginiuose

    Šveicarijoje įsikūręs puslaidininkių startuolis „Mosaic SoC“ pranešė pritraukęs 3,2 mln. eurų išankstinės pradinės investicijos etapą. Bendrovė kuria specializuotus suvokimo lustus, skirtus tam, kad mažai energijos naudojantys įrenginiai galėtų realiu laiku „matyti“ aplinką ir suprasti erdvę.

    Investicijų etapui vadovavo „Founderful“, prisidėjo „Kick Foundation“. Anksčiau, 2024 metais, įmonė taip pat buvo gavusi apie 162 000 eurų finansavimą iš „Venture Kick“, kuris padėjo paspartinti ankstyvą produktų vystymą ir partnerystes.

    „Erdvinis intelektas neturėtų reikalauti programų klasės procesoriaus ir vaizdo plokštės. „Mosaic SoC“ sukūrėme tam, kad realaus laiko suvokimas veiktų sunaudojant tik dalį energijos, o baterijomis maitinami įrenginiai galėtų suprasti aplinką neaukodami formos“, – sakė „Mosaic SoC“ vadovas ir vienas įkūrėjų Alfio Di Mauro.

    „Mosaic SoC“ įkurta 2024 metais, o jos tikslas – integruotos mikroschemos, kurios apdoroja vaizdo ir padėties jutiklių duomenis. Tai leidžia įrenginiams susidaryti vietinį aplinkos žemėlapį, atpažinti objektus ir stebėti judėjimą beveik neapkraunant baterijos.

    Bendrovė sprendžia problemą, kuri šiandien riboja daugelį nuolat veikiančių kompiuterinės regos ir DI funkcijų: realaus laiko suvokimas dažnai remiasi daug energijos naudojančiais procesoriais ir grafikos spartintuvais. Dėl to tokios funkcijos tampa per brangios energijos biudžetui, ypač nešiojamuose įrenginiuose.

    Kur tokie lustai praverstų?

    Startuolis akcentuoja išmaniųjų akinių ir kitų dėvimų įrenginių scenarijus, kur erdvinis suvokimas yra esminis, tačiau vietos ir energijos resursai riboti. Idėja paprasta: padaryti taip, kad įrenginys išliktų plonas, lengvas ir vizualiai panašus į įprastą aksesuarą, bet kartu turėtų pastovų aplinkos „supratimą“.

    Išmaniųjų telefonų atveju bendrovė mini koprocesoriaus vaidmenį, pavyzdžiui, priekinei kamerai: nuolatinis objektų ar įvykių stebėjimas galėtų leisti pradėti filmavimą ar kitas funkcijas tik tada, kai aptinkamas konkretus signalas. Tai suteiktų „visada pasirengusio“ įrenginio efektą, tačiau mažiau iškrautų bateriją.

    Verslo modelis ir architektūra

    „Mosaic SoC“ verslo modelį įvardija tiesmukai: parduodami integriniai grandynai. Kartu bendrovė teigia, kad siūlo ne vien fizinį lustą, bet ir programinį „taikymo sluoksnį“, kurį gamintojai galėtų integruoti ir naudoti kaip pagrindą, o ne kurti suvokimo funkcijas nuo nulio.

    Technologiškai įmonė išskiria savo daugiabranduolę architektūrą, kurią optimizuoja našumui vienam vatui. Toks požiūris atitinka rinkos kryptį, kai dalis DI ir kompiuterinės regos užduočių vis dažniau perkeliama arčiau įrenginio krašto, kad sumažėtų energijos sąnaudos, delsos laikas ir priklausomybė nuo debesijos.

    Bendrovė taip pat užsimena apie įrankių grandinę diegimui: kompiliatorius ir priemones, kurios leistų programuotojams efektyviai išnaudoti architektūrą. Pasak įmonės, ilgainiui tikslas – evoliucionuoti nuo lusto tiekėjo link platformos, kurioje programos kuriamos ir optimizuojamos konkrečiam siliciui.

    „Mosaic SoC“ nurodo, kad jau pirmaisiais veiklos metais generavo pajamas iš NRE, tai yra nepasikartojančių inžinerinių darbų sutarčių su gamintojais partneriais. Įmonei artėjant prie produktinės stadijos, pajamos, tikėtina, labiau priklausys nuo mastelio, kurį suteikia serijinė lustų prekyba.