6. oktoobril kaitses Kairi Tamuri Tartu ülikoolis doktoritöö „Põhiemotsioonid eestikeelses etteloetud kõnes: akustiline analüüs ja modelleerimine“, mille koostamise käigus õnnestus välja selgitada viha ning kurbuse akustiline kõla etteloetud tekstis ning nende väljendamine kõnet sünteesivale robotile selgeks õpetada.
Sünteeskõnet rakendatakse paljudes valdkondades, näiteks inimese ja masina suhtluses, multimeedias ning puuetega inimeste abivahendites, mistõttu on oluline, et sünteeskõne kõlaks loomulikuna. Üks viis sünteeskõne loomulikumaks muutmiseks on lisada sellesse emotsioone akustiliste mudelite abil. Mudelite loomiseks tuleb teada, kuidas emotsioonid inimkõnes hääleliselt väljenduvad, st millised on täpsed akustilised parameetrid, et masin suudaks neid järgides emotsioone äratuntavalt väljendada.
„Emotsioonid on inimkõnes alati olemas ja seepärast peaksid need olema tajutavad ka inimkõnet matkivas sünteeskõnes,” sõnas töö autor Kairi Tamuri teema olulisuse kohta. „Kõne tähtsus on igapäevaelus tajutav näiteks telefonivestlustes, kus kogu suhtlus ongi vaid heli tasandil.“
Doktoritöös oli autoril kaks eesmärki: saada teada, milline on kolme põhiemotsiooni – rõõmu, kurbuse ja viha – akustiline väljendumine eestikeelses etteloetud kõnes, ning luua tulemuste põhjal eestikeelsele kõnesüntesaatorile sünteesi jaoks emotsionaalse kõne akustilised mudelid. Et emotsioonide väljendamine erineb keeleti ning kultuuriti, vajasid mõlemad eesmärgid eraldi uurimist.
Mudelite loomiseks tuli välja selgitada, kas, millisel määral ja mis suunas emotsioonid akustiliste parameetrite, näiteks põhitooni, intensiivsuse ja kõnetempo väärtusi mõjutavad ning millised parameetrid emotsioone üksteisest ja neutraalsest kõnest eristavad. Töös seatud eesmärk täitus osaliselt – kui viha ning kurbuse väljendamisega sai süntesaator rahuldavalt hakkama, ei suutnud see rõõmu akustiliste mudelite põhjal arusaadavalt edasi anda.
„Probleem ei seisnenud mitte rõõmu äratundmises eestikeelses inimkõnes - rõõmu väljendamises ja selle tajumises pole midagi rasket. Keeruliseks osutus see justnimelt kõnesünteesis. Olukorda võiks parandada parameetrite otsinguala suuremaks tegemine, st nende väärtustega veidi suuremal skaalal mängimine kui praeguses uuringus. Kindlasti tasuks proovida emotsionaalset sünteeskõnet ka masinõppe meetoditega. Emotsioonide akustika uurimine ja emotsioonide modelleerimine on alles algusjärgus ja arenguruumi jagub,“ võttis Tamuri tulemused kokku.
Sünteesitud heliklippe saab kuulata EKI kodulehel.
Doktoritööst ilmus seda tutvustav artikkel ERR Novaator portaalis.
Lisainfo: Kairi Tamuri, doktoritöö autor, 50 655 72, kairi.tamuri@eki.eearia Kristiina Prass