Tyrimas perspėja: „ChatGPT“, „Gemini“ ir kiti pusę sveikatos patarimų pateikia klaidingai

Įsivaizduokite situaciją: žmogui diagnozuojamas ankstyvos stadijos vėžys, o iki kito vizito pas gydytoją jis AI pokalbių robotui užduoda klausimą: kurios alternatyvios klinikos gali sėkmingai gydyti vėžį?

Per kelias sekundes pateikiamas glotnus, tarsi gydytojo parašytas atsakymas su išnašomis ir nuorodomis į „šaltinius“. Tačiau dalis teiginių gali būti nepagrįsti, pateiktos nuorodos – neveikiančios arba vedančios niekur, o pats pokalbių robotas dažnai net neįspėja, kad pats klausimas gali būti klaidingai suformuluotas.

Tokia situacija nėra vien teorinė. Septynių tyrėjų komanda atliko sistemingą populiariausių pokalbių robotų „streso testą“, vertindama, kaip jie teikia su sveikata susijusią informaciją. Tyrimo rezultatai paskelbti mokslo žurnale BMJ Open.

Tyrime dalyvavo penki pokalbių robotai: „ChatGPT“, „Gemini“, „Grok“, „Meta AI“ ir „DeepSeek“. Kiekvienam jų užduota po 50 klausimų sveikatos ir medicinos temomis: apie vėžį, vakcinas, kamienines ląsteles, mitybą ir sportinį pajėgumą.

Kiekvieną atsakymą nepriklausomai įvertino du ekspertai. Paaiškėjo, kad beveik 20 proc. atsakymų buvo įvertinti kaip labai problemiški, apie pusė – kaip problemiški, o dar 30 proc. – kaip šiek tiek problemiški. Be to, nė vienas iš botų patikimai nesugebėjo pateikti visiškai tikslių nuorodų į šaltinius, o iš 250 klausimų tik į du buvo tiesiogiai atsisakyta atsakyti.

Bendrai visi penki pokalbių robotai pasirodė panašiai. Prasčiausiai įvertintas „Grok“ – 58 proc. jo atsakymų pažymėti kaip problemiški. Toliau rikiavosi „ChatGPT“ (52 proc.) ir „Meta AI“ (50 proc.).

Rezultatai skyrėsi priklausomai nuo temos. Geriausiai robotai tvarkėsi su klausimais apie vakcinas ir vėžį – sritis, kuriose yra daug gerai struktūruotų mokslinių tyrimų. Vis dėlto ir čia probleminiai atsakymai pasitaikė maždaug ketvirtadaliu atvejų.

Daugiausia klaidų fiksuota mitybos ir sportinio pajėgumo temose – srityse, kur internete gausu prieštaringų patarimų, o tvirti įrodymai ne visada lengvai randami.

Ypač išryškėjo skirtumas tarp atvirų ir uždarų klausimų. Atvirų klausimų atsakymai 32 proc. atvejų buvo įvertinti kaip labai problemiški, tuo metu uždarų – tik 7 proc. Tai svarbu, nes realiame gyvenime žmonės dažniausiai užduoda būtent atvirus klausimus, pavyzdžiui: kurie maisto papildai geriausi bendrai sveikatai? Tokie klausimai skatina pateikti sklandų ir užtikrintą, bet potencialiai žalingą atsakymą.

Tyrėjai taip pat prašė pateikti po dešimt mokslinių nuorodų. Vidutinis pateiktų šaltinių išsamumo įvertinimas siekė tik 40 proc. Per 25 bandymus nė vienam botui nepavyko pateikti visiškai tikslaus nuorodų sąrašo. Klaidos svyravo nuo neteisingų autorių ir neveikiančių nuorodų iki visiškai išgalvotų publikacijų.

Toks „šaltinių“ pateikimas, pasak tyrėjų, yra ypač pavojingas, nes nuorodos ir citatos gali atrodyti kaip patikimumo įrodymas. Žmogus, pamatęs tvarkingai suformatuotą literatūros sąrašą, dažnai neturi pagrindo suabejoti tuo, kas parašyta aukščiau.

Kodėl pokalbių robotai klysta

Tyrime pabrėžiama paprasta priežastis, kodėl pokalbių robotai pateikia netikslius medicininius atsakymus: kalbos modeliai „nežino“ faktų taip, kaip juos supranta žmogus ar medicinos specialistas. Jie prognozuoja statistiškai labiausiai tikėtiną kitą žodį pagal mokymosi duomenis ir kontekstą, tačiau patys nevertina įrodymų ir nepriima vertybinių sprendimų.

Mokymosi duomenyse yra ir recenzuotų mokslinių straipsnių, ir forumų diskusijų, „sveikatingumo“ tinklaraščių bei socialinių tinklų ginčų. Dėl to atsakymai gali skambėti įtikinamai, net jei remiasi prastais ar prieštaringais šaltiniais.

Tyrėjai taip pat nurodo, kad klausimai buvo suformuluoti ne neutraliai. Sąmoningai kurti tokie raginimai, kurie galėtų „pastumti“ robotus į klaidinančius atsakymus – tai įprasta dirbtinio intelekto saugos tyrimuose taikoma praktika, vadinama „red teaming“.

Taigi klaidų rodikliai gali būti didesni nei tie, su kuriais susidurtų žmogus, užduodamas neutralesnius klausimus. Be to, buvo testuojamos nemokamos kiekvieno modelio versijos, prieinamos 2025 m. vasarį. Mokamos versijos ar naujesni leidimai gali veikti geriau.

Vis dėlto pabrėžiama, kad dauguma žmonių iš tiesų naudoja būtent nemokamas versijas, o jų klausimai dažnai būna suformuluoti neapgalvotai. Todėl tyrimo sąlygos, tikėtina, gana tiksliai atspindi kasdienį tokių įrankių naudojimą.

Tyrimo autoriai primena, kad šis darbas nėra pavienis. Kiti tyrimai rodo panašią tendenciją: vieni rezultatai atskleidžia, kad patys modeliai kartais gali pateikti teisingą medicininį atsakymą labai dažnai, tačiau realūs naudotojai, net turėdami pokalbių robotų pagalbą, teisingai supranta ir pritaiko informaciją gerokai rečiau. Kiti darbai rodo, kad modeliai, gavę mažai konteksto, sunkiai pasiūlo teisingą galimų diagnozių spektrą, o taip pat linkę pakartoti ar net išplėtoti į užklausas tyčia įterptus išgalvotus medicininius terminus.

Apibendrindami tyrėjai teigia, kad pokalbių robotai niekur nedings ir gali būti naudingi: jie gali padėti apibendrinti sudėtingas temas, suformuluoti klausimus gydytojui ar tapti pradiniu informacijos paieškos tašku. Tačiau jų atsakymų nereikėtų laikyti savarankiška medicinine autoriteto nuomone.

Jei pokalbių robotas vis dėlto naudojamas sveikatos klausimais, tyrėjai ragina tikrinti kiekvieną teiginį, pateiktas „nuorodas“ vertinti kaip užuominas, kur reikėtų pasitikrinti, o ne kaip faktų įrodymą, taip pat atkreipti dėmesį, kai atsakymas skamba labai užtikrintai, bet nepateikia jokių svarbių įspėjimų.


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *