Järjestys datasykkyrään – tekoäly oppi visualisoimaan laajaa data-aineistoa
Uusi FCAI:n tutkijoiden kehittämä tekoälyalgoritmi pyrkii visualisoimaan data-aineiston mahdollisimman selkeästi. Hankkeessa osoittautui, että algoritmin itsenäisesti valitsema ratkaisu oli usein hyvin lähellä ihmisen tyypillisimmin suosimaa ratkaisua.
Ihmisaivoilla on hämmästyttävä kyky havainnoida erilaisia piirteitä jopa erittäin suurista määristä visuaalista informaatiota. Tätä kykyä hyödynnetään muun muassa tutkittaessa suuria datamassoja, joiden sisältämää informaatiota täytyy tiivistää ihmisälylle ymmärrettävään muotoon. Tämänkaltainen ulottuvuuksien pienennysongelma on keskeinen visuaalisessa analytiikassa.
Suomen tekoälykeskus FCAI:n tutkijat Aalto-yliopistosta ja Helsingin yliopistosta kokeilivat visuaalisen analytiikan tunnetuimpien menetelmien toimivuutta ja havaitsivat, ettei mikään niistä toiminut, kun datan määrä kasvoi roimasti. Esimerkiksi t-SNE, LargeViz ja UMAP eivät enää kyenneet erottelemaan datassa olevia erittäin vahvoja signaaleja havaintojen ryhmittymisestä, kun havaintoja oli satoja tuhansia.
Higgsin bosonin aineisto antoi sykäyksen uudelle algoritmille
Hiukkasfysiikalle keskeisen alkeishiukkasen, Higgsin bosonin löytämiseen liittyvien kokeiden tuottamassa aineistossa on esimerkiksi yli 11 miljoonaa piirrevektoria.
– Näistä saadut visualisoinnit muistuttivat villalankasykkyrää, eivätkä siten paljasta lainkaan aineistossa olevia huomionarvoisia hiukkasten käyttäytymiseen liittyviä ominaisuuksia, sanoo Helsingin yliopiston tilastotieteen professori Jukka Corander.
– Tämä löydös antoi sykäyksen kehittää uusi menetelmä, joka hyödyntää samoja grafiikkakiihdyttimien ominaisuuksia kuin modernit neuroverkkolaskennan tekoälymenetelmät.
Tutkijoiden kehittämä tekoälyalgoritmi pyrkii visualisoimaan aineiston niin, että sen ihmiselle helposti havainnoitavat ja ymmärrettävät makroskooppiset piirteet, kuten dataryppäät, erottuvat mahdollisimman selkeästi.
Hankkeessa menetelmää testasivat useat vapaaehtoiset ja osoittautui, että algoritmin itsenäisesti valitsema ratkaisu oli usein hyvin lähellä ihmisen tyypillisimmin suosimaa ratkaisua, missä ihmisäly sijoittaa oman näkemyksensä mukaan samankaltaisista havainnoista koostuvat dataryppäät selkeästi erilleen toisistaan. Sovellettaessa menetelmää Higgsin hiukkasaineistoon tuotiin selkeästi esille aineiston tärkeimmät ominaisuudet fysiikan näkökulmasta.
– Tämä on varsinainen kvanttiloikka visuaalisen analytiikan saralla. Menetelmämme on paitsi useita kertaluokkia nopeampi kuin aiemmat menetelmät ja lisäksi sen toimintakyky on huomattavasti parempi haasteellisille sovelluksille, sanoo Corander.
Coranderin ryhmän johdolla rakennettiin myös erillinen rajapinta menetelmän mahdollisimman tehokkaan hyödyntämisen mahdollistamiseksi genomiikan sovelluksissa. Näin käyttäjä pystyy jopa analysoimaan aineistojaan interaktiivisesti lataamalla tiedoston suoraan verkkoselaimeen. Tässä jatkotutkimuksessa havainnollistettiin maailmanlaajuisten bakteeri- ja SARS-COV2-aineistojen avulla, kuinka uudella työkalulla pystyy tarkastelemaan nopeasti jopa miljoonia genomeja ja löytämään niistä tärkeitä ominaisuuksia.
Tutkimus oli yhteistyötä FCAI:n johtajan, professori Samuel Kasken ja Jukka Coranderin ryhmien välillä. Hanketta vetävänä tutkijana toimi professori Zhirong Yang NTNU-yliopistosta Norjasta. Professori Yang on väitellyt Aalto-yliopistosta ja toiminut myöhemmin tutkijana sekä Aallossa että Helsingin yliopistossa Coranderin ryhmässä.
Lisää tieteellisistä julkaisuista:
Stochastic cluster embedding, Statistics and Computing (2023)
Mandrake: visualizing microbial population structure by embedding millions of genomes into a low-dimensional representation, Philosophical Transactions of the Royal Society B (2022)