Voogandmete väärindamine päästab riigi ja ettevõtted käkkidest

Eksimine on inimlik. Samas aga võivad nii inimeste kui ka masinate põhjustatud vead tekitada organisatsioonile märkimisväärset kahju. Võimalik lahendus peitub voogandmete sihipärasemas kasutamises.

Külmladude rikked, andmekaitse riived, pettused, rahapesu – kui meil parasjagu pole käsil just mõni suurem kriis, saame lugeda organisatsioonides toimunud käkkidest ja sageli nendega kaasnevatest hiigeltrahvidest. Käkk oma olemuselt on aga ennetatav. Teame, kuidas oleks pidanud käituma, kuid me ei käitunud nii, kirjutab Tartu Ülikooli suurandmete nooremteadur Kristo Raun Novaatoris.

Osalt on see mõistetav. Tänapäeva maailm on aina keerulisem. Konkurentsis püsimiseks ja tarbijatele meelejärele olemiseks peavad ettevõtted kasutama uuemaid ja sageli keerulisemaid tehnoloogiaid. Süsteemid on muutunud sedavõrd mitmetahuliseks, et vigade tekkimises pole midagi ootamatut. Üks väike viga võib aga põhjustada palju kahju. Kahju, mida saaks ehk vältida, kasutades ära olemasolevaid andmeid.

Taolised andmed tekivad näiteks arvutisüsteemide töös – poesüsteemid teavad, mida me ostame, ning pangasüsteemid teavad, kui palju me raha teenime. Telefonis olevad rakendused teavad, kus me oleme ja kuhu me läheme. Enamike süsteemide juurde on organisatsioonid ehitanud andmeanalüütika lahendused. Nii saab leida hõlpsasti vastuseid küsimustele "kes mida ostis?" või "kui palju meie klientidest elab Tallinnas?".

Organisatsioonid ei koosne aga tegelikult andmetest, vaid protsessidest. Poed soovivad, et ma lisaksin tooted ostukorvi ja nende toodete eest maksaksin. Andmed on seejuures kõrvalprodukt, tegelikult on oluline hoopis ostuprotsess. Taoline andmetel tuginev, kuid protsessipõhine vaade organisatsioonile on saanud nimeks protsessikaeve.

Kui vaadelda organisatsiooni läbi protsesside, on võimalik leida kohti, kus käkid tekivad.

Tekkivaid andmeid saame kõrvutada protsessi-mudeliga, mis näitab, kuidas asjad peaksid käima. Kui külmlao temperatuur on üle lubatud normi, siis pole päriselu vastavuses mudeliga, mis eeldas, et temperatuur püsib normi piires. Selline vaatlus võib jääda aga pelgalt tagantjärele tarkuseks, kui seepeale midagi kiiresti ette ei võeta.

Voogandmed on andmed, mis tekivad pidevalt, n-ö voona. Traditsiooniliselt tehakse andmetöötlust teatud aja tagant – näiteks kord päevas. Siis on lihtne võtta kõik eelneval päeval tekkinud andmed kokku ja vaadelda, mis on juhtunud. Voogandmete töötlus on seevastu pidev protsess, kus otsitakse vastuseid ajaliselt võimalikult lähedal andmete tekkimise hetkele. See on keerukam, kuid samas väärtuslikum viis andmete väärindamiseks.

Senised lahendused protsessides toimunud käkkide tuvastamiseks on jagunenud kaheks. Hoiatuspõhine lahendus annab vastuse, et midagi on valesti läinud. Mis täpselt, seda ei oska lahendus öelda. Arvutuskäik on kiire, aga sellest on vähe abi inimesele, kes peab hakkama uurima, mis siis ikkagi valesti läks.

Põhjalikuma vastuse annab joondamine. Joondus näitab ära, mis tegevusi on seni tehtud ja kuidas need vastavad protsessimudelile. See teeb inimesele olukorra lahendamise lihtsaks. Paraku on joondamine arvutuslikult eksponentsiaalne. Mida keerulisem protsess, seda kauem võtab aega tulemuseni jõudmine. Lahendus võib jääda hätta, kui peab töötlema näiteks midagi, mis juhtub igas sekundis. Võrdluseks, Eestis tehakse ligikaudu miljon kaardimakset päevas, see tähendab keskmiselt üle kümne kaardimakse sekundis.

Oma teadustöös Tartu Ülikoolis uurin ma kolleegidega, kuidas ühendada hoiatuspõhise lahenduse kiirus ja joonduse põhjalikkus. Oleme tõestanud, et protsessimudeli on võimalik ehitada arvutuslikult efektiivsemana, kasutades mudeliks täiustatud prefiksipuud – andmestruktuuri, mida kasutatakse näiteks otsingumootorites ja nutitelefonides kasutaja sisestavate sõnade ja tähtede ennustamiseks.

Taoline mudel kiirendab arvutuskäiku, tagades samas põhjaliku vastuse, mis on inimesele abiks olukorra lahendamisel. Selline lahendus võimaldab teha inimestel kiireid otsuseid isegi keerukates protsessides tekkivates käkkides. Iga käkk pole alati lahendatav, kuid mida varem käkile jälile jõuda, seda parem.

Andmevoogudes esineb ka teatud puudusi. Näiteks, ei pruugi andmed saabuda ajaliselt õiges järjekorras. Edasises teadustöös proovin leida lahendust, mis suudaks kohaneda andmevoo eripäradega. Lisaks on oluline inimfaktor. Süsteemid, mis meid ümbritsevad ja nende seadistused on inimeste paika pandud. Kompleksete inim-küber-süsteemidega tegelev teadusharu on veel küllaltki algusjärgus ja pakub palju põnevaid uurimusküsimusi.

Kuidas kõik eelnev meid igapäevaselt mõjutab? Kas kõik käkid on ennetatavad? Mujal maailmas tegelevad juba paljud ettevõtted protsessikaeve juurutamisega. Lähiajal näeme organisatsioonides aina enam protsessipõhiseid ja voogandmetel tuginevaid lahendusi. Loodetavasti juhtub sama Eesti ettevõtetes ja riigiasutustes. Tasub siiski meeles pidada, et voogandmete väärindamine pole päris käkitegu.

Kristo Raun on doktorant Tartu Ülikooli arvutiteaduse instituudis. Kristole meeldib andmetes kaevata ja probleeme lahendada; seetõttu uurib ja proovib ta luua uudseid algoritme ja andmestruktuure, mis aitaksid äriprotsessides kiiremini nii vigu tuvastada kui ka otsuseid langetada. Kristo hetke lemmikteema on voogandmed, ehk peaaegu reaalajas saabuvad andmed. Ta annab Tartu Ülikoolis ka praktikume suurandmete ning andmetehnika teemadel ja loodab aidata kaasa arvutiteaduse populariseerimisele ühiskonnas.

Artikkel ilmus Eesti Teaduste Akadeemia korraldatava konkursi „Teadus 3 minutiga" raames, mille pidulik finaal toimub 3. veebruaril.

11. novembril 2022 toimus Tartu Ülikoolis „Teadus 3 minutiga" eelkonkurss, kus Kristo Raun saavutas kolmanda koha loenguga „Otsetee otsusteni - vastavuskontrolli tegemine voogandmetel".

Ettevõtlusprogramm „Teadusest äriks!“

Tule vilistlaste kokkutulekule

Vii end kurssi Tartu Ülikooli uudistega

Voogandmete väärindamine päästab riigi ja ettevõtted käkkidest

Rodolfo Basile kaitseb doktoritööd „Invenitive-Locational Constructions in Finnish: A Mixed Methods Approach”

Linnutee galaktikas tekib igal aastal vähemalt üks uus eksoplaneet

Aktiivsus- ja tähelepanuhäire suur geneetiline risk viitab võimalikele kaasuvatele haigustele