Verslas
Kaunas IN.
2022 06 28
Kaip išmokyti mašiną žmogaus kalbos?

„Lietuva yra ir turi visas galimybes likti svaria intelektualių technologijų tobulinimo žaidėja pasauliniu mastu,“ – įsitikinęs Vytauto Didžiojo universiteto (VDU) Informatikos fakulteto docentas,  Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto vyriausiasis mokslo darbuotojas ir intelektualių technologijų tyrimo grupės vadovas dr. Darius Amilevičius. Ir nors šiuo metu, jo pastebėjimu, potencialo kurti inovacijas turime daugiau nei galimybių ir noro jas diegti viešajame ir privačiame sektoriuose, tačiau kito kelio į naujos kartos Lietuvą paprasčiausiai nėra – tik per skaitmeninę transformaciją. „Manau, kad gyvename svarbiu pokyčių laikotarpiu,“ – sako intelektualias technologijas Kaune tiriantis mokslininkas.

 

Skaitmeninių išteklių ir tarpdisciplininių tyrimų institutas – vienas iš penkių naujai įsteigtų mokslinių tyrimų institutų Vytauto Didžiojo universitete. Iš Humanitarinių mokslų fakulteto į jį perkeliamas ir kompiuterinės lingvistikos centras su tyrėjų komanda – o tai padeda efektyviau apjungti tarpdisciplininius technologijų tyrimus bei panaudoti technologinius išteklius, kurių modernių technologijų vystymui reikia vis daugiau.

 

„Intelektualių technologijų tyrimų grupėje, kaip rodo pats grupės pavadinimas, tiriame intelektualias technologijas – visų pirma gilųjį mokymąsi ir neuroninius tinklus. Ir kuriame jų vystymui reikalingus skaitmeninius išteklius – tokius kaip įterptiniai žodžių vektorių modeliai, neuroninis kalbos modeliavimas ir kt. Mūsų pagrindinis tikslas yra ne tik siekti, kad mašina kuo tobuliau imituotų intelektualią veiklą, bet kad gebėtų su žmogumi bendrauti mums priimtiniausiu būdu – natūralia kalba. Vargu ar galėsite pilnai savaeigę transporto priemonę valdyti komandas barškindami klaviatūra arba ligoninėje pacientus slaugančio roboto prašyti stiklinės vandens rašydami žinutę telefone. Tad į mūsų gyvenimus ateinančioms technologijoms suprasti kalbą – būtina. Taigi į šį lingvistinį žmogaus ir mašinos bendravimą mes ir gilinamės – o tyrimų rezultatais ir patirtimi dalijamės su VDU studentais, kartu juos įtraukdami į institute vykdomus tyrimus,“ – apie laboratorijos veiklas pasakoja D. Amilevičius.

 

Natūrali kalba – didžiulis iššūkis mašinoms

 

Vaizdų atpažinimo srityje mašina jau priartėjo, o atskirais atvejais ir pralenkia žmogaus lygį. Tačiau žmogaus kalbos supratimas mašinai vis dar yra sunkiai įveikiamas barjeras. Naujausi neuroniniai kalbos modeliai jau geba generuoti tekstus, kurie sudaro įspūdį, kad mašinoje vyksta intelektualūs procesai. Tačiau iš tiesų tai tik imitacija: mašina nesąmoningai generuoja sąlyginai prasmingus tekstus, kurių prasmės pati nesupranta.

 

„Problema ta, kad nei vieno proceso, kuris vienaip ar kitaip susijęs su žmogaus kalba, neįmanoma pilnai automatizuoti be natūralios kalbos technologijų pažangos, kuri vis dar per menka. Iš kitos pusės, kalba yra galinga priemonė. Mašina, vis tobuliau naudodama kalbos technologijas, gali atnešti daug naudos, bet ir padaryti žalos. Pavyzdžiui, neskirdama gėrio nuo blogio, nesuprasdama tekstų, kuriuos generuoja, mašina vienodai efektyviai gali generuoti tiek orų prognozę, tiek melagienas arba diskriminuojančius tekstus,“ – technologijų teikiamus privalumas ir keliamas grėsmes aiškina mokslininkas.

 

Dėmesys – lietuvių kalbos automatizavimui

 

Nors lingvistinė technologijų pažanga didelė, tačiau daugiausiai kol kas yra nuveikta skaitmenizuojant ir mašinas „mokant“ anglų kalbos. Dėl to, kaip pastebi D. Amilevičius, pradeda formuotis grėsminga galimos diskriminacijos technologijų pagrindu situacija, kai pasaulį bus galima dalyti į dvi dalis: angliškai kalbanti, technologiškai pažengusi ir angliškai nekalbanti, technologiškai atsilikusi dalis. Jau dabar yra iškilusi reali išlikimo grėsmė mažoms, nekomercinėms kalboms.

 

„Kaip lietuvis ir pilietis norėčiau, kad lietuvių kalba išliktų, nes tai vienas pamatinių mano kultūrinės ir tautinės tapatybės ženklų. Iš kitos pusės, Biblija skelbia, kad žmonija iki Babelio bokšto laikų kalbėjo viena kalba, o daugiakalbystės atsiradimas buvo bausmė žmonijai. Ir vienos kalbos, leidžiančios sklandžiai komunikuoti visai žmonijai, idėja pasaulyje sklandė nuolat – pakanka prisiminti esperanto kalbą arba prancūzų, kaip tarptautinės diplomatijos kalbos, atvejį. Šiuo metu lietuvių kalba vis dar yra valstybinė ir džiugu, kad Lietuva bei Europos Sąjunga skiria pakankamai dėmesio bei lėšų jos įsitvirtinimui skaitmeninėje erdvėje ir technologijose,“ – sako D. Amilevičius.

 

Tokio dėmesio pavyzdžiu jis įvardija įgyvendintą priemonę „Lietuvių kalba informacinėse technologijose“, kurios vienu iš projektų tapo „Semantika-2“, ir dabar vykdomas planas „Naujos kartos Lietuva“.

 

Pagrindinis projekto „Semantika-2“ tikslas buvo automatizuoti kai kuriuos raštvedybos procesus, atsisakant rankinio, rutininio žmogaus darbo. Projekte sukurta nemažai sprendimų lietuvių kalbai, iš kurių paminėtini automatinis rašybos klaidų tikrintuvas, automatinis dokumentų santraukų sudarymas, automatinis aspektais grįstas naudotojų nuomonių analizatorius, automatinis neapykantos ir įžeidžios kalbos tikrintuvas, automatinis lietuviškų garso įrašų transkribatorius tekstu.

 

„Ypač vykęs pastarasis sprendimas, už kurį Lietuvos verslo konfederacija mus, programos kūrėjus, apdovanojo prestižiniu „Metų mokslo paslauga verslui“ apdovanojimu. Vienos valandos garso įrašo perrašymas rankiniu būdu pareikalauja beveik trijų valandų darbo – tarkime, perrašant interviu, apklausas, susirinkimų garso įrašus ir t. t. O naudojant automatinį transkribatorių, pavyzdžiui, posėdžių protokolų sudarymui, vienu ypu sprendžiamos dvi problemos: protokolą galima parengti labai greitai, o jei kyla pretenzijos, kad jame kas nors netiksliai apibendrinta, visada išlieka garso įrašas, kaip fakto įrodymas.

 

Automatinis šnekos atpažintuvas labai svarbus ir medicinoje: leidžia taupyti gydytojų darbo laiką, kai visi paciento duomenys į sistemą suvedami balsu. Prognozuojama, kad per artimiausius penkerius metus pasaulinė kalbos technologijų rinka ženkliai augs būtent dėl naujų galimybių jas taikyti medicinos srityje,“ – apie sukurtas technologijas ir jų panaudojimo būdus pasakoja mokslininkas.

 

Kuriose veiklos srityse žmones pakeis mašinos?

 

Tyrimų rezultatai rodo, kad pramonėje yra darbų, kur 70 procentų jiems skirto darbo laiko galima automatizuoti. Bet, pavyzdžiui, sveikatos apsaugos sistemoje automatizuoti įmanoma ne daugiau kaip vidutiniškai 25 procentus bendro darbo laiko ir ne daugiau kaip 2 procentus kai kurių medicinos profesijų darbo laiko.

 

„Drįsčiau prognozuoti, kad mašina dar ilgai negalės pakeisti žmogaus, tačiau jau gali atlikti kai kurias mūsų funkcijas. Jų nevadinčiau „nekvalifikuotomis“. Kiekvienas gerai atliekamas darbas reikalauja žinių ir įgūdžių. Lengvai pakeičiamus darbus pavadinčiau rutininiais, t. y. tokiais, kuriuos lengva standartizuoti, šablonizuoti“,  – aiškina D. Amilevičius.

 

Pasak jo, kiekviena ekonominė sistema sukuria poreikį darbų, kurie sunkiai dera su žmogaus prigimtimi, taigi tuos darbus dirbame laikinai, kol bus sukurtos tinkamos mašinos. Remiantis pasauline praktika ir tyrimų rezultatais, automatizavimui labiausiai atspari sritis – teisinė, labai imli – medicina (dėl vis didėjančio medikų trūkumo), labai atvira – švietimas, o pramonė – priklauso nuo nacionalinių ypatumų.

 

„Lietuvoje šiandien turime daug jaunų talentų, kurių vystomi sprendimai sulaukė tarptautinio pripažinimo. Iš sėkmės istorijų paminėtini „Oxipit“, „Pixevia“, „Vinted“, „Nord Security“ ir kiti. Sąrašas būtų labai ilgas. Bet pastebiu, kad šalyje susidaręs disbalansas tarp inovacijų pasiūlos ir paklausos, o jo priežastis paprasta: potencialo kurti inovacijas šalyje turime daug, bet skaitmeninės transformacijos Lietuvos viešajame ir privačiame sektoriuose vyksta per lėtai,“ – tvirtina mokslininkas.

 

Kita vertus, jo manymu, gyvename svarbių pokyčių laikotarpiu: nors geopolitinė situacija sąlygojo ekonominę suirutę bei netolimoje ateityje prognozuojamą ekonominę stagnaciją ar net recesiją, vis dėlto kiekvienoje problemoje glūdi galimybės: „Karantino suteiktas teigiamas postūmis skaitmeninių transformacijų link, ypač tinkamai pasitelkus į Lietuvą ateinančias Europos Sąjungos finansinės paramos injekcijas, gali mus nuvesti į sparčias makro lygmens skaitmenines transformacijas. Tada, jei politikos formuotojai nepritruks valios, drąsos ir ryžto, Lietuva iš krizių 5-osios Pramonės revoliucijos priešaušryje išties gali pakilti kaip tikra „naujos kartos Lietuva“.

Šaltinis: Asociatyvinė nuotrauka.