Synteettistä dataa aivotutkimuksen avuksi
On kaksi hyvää syytä, miksi synteettinen terveysdata kiinnostaa tutkijoita: keinotekoisesti luotu data ei sisällä potilastietoja ja sitä voidaan tuottaa suuria määriä tutkimuksia varten. VTT kehittää kansainvälisessä IVVES-hankkeessa menetelmää synteettisen kuvantamisdatan luomiseksi aivotutkimuksen käyttöön.
”Jos hyvin tarkkaan katsoo, kuvasta voi löytää laadullisia yksityiskohtia, joista voisi epäillä sen aitoutta. Anatomisesti kuvat ovat kuitenkin riittävän uskottavia ja soveltuvat tutkimuskäyttöön”, kertoo VTT:n tutkija Harri Pölönen esitellessään keinotekoisesti luotua ihmisaivojen magneettikuvaa.
Ihmisen pään alueen magneettikuvissa näkyvät aivorakenteet ovat yksilöllisiä eikä niistä siksi voida täysin häivyttää tietoa ihmisen henkilöllisyydestä ilman, että myös tutkimuksen kannalta oleellinen anatominen informaatio kärsii. Aitoja magneettikuvia on saatavilla rajallisesti ja niiden käyttö luvanvaraista. Keinotekoisesti luotu data tarjoaa ratkaisun näihin ongelmiin.
VTT:n johtava tutkija Jaakko Lähteenmäki kuvailee haasteita, joita liittyy tutkimuskäyttöön tarvittavan terveysdatan hankintaan: ”Hiljattain päättyneessä tutkimuksessa hyödynsimme noin 7000 henkilön terveystietoaineistoa. Sen käyttöön liittyvään lupaprosessiin ja tietojen kokoamiseen eri tietojärjestelmistä kului 16 kuukautta ja aineiston kokoamisen kustannukset olivat 80 000 euroa. Viive ja kustannukset olisivat suurelta osin vältettävissä synteettistä dataa hyödyntämällä. Samalla vältettäisiin myös tarve määritellä tutkimuksen sisältö tarkasti etukäteen, mikä helpottaisi uusien datapohjaisten innovaatioiden kehittämistä.”
Harri Pölönen on luonut synteettisiä, kolmiulotteisia aivokuvia jo tuhansia viimeisen vuoden aikana. Aivokuville voi olla käyttöä esimerkiksi Alzheimerin taudin diagnostiikassa tai aivosyöpään liittyvissä tutkimushankkeissa. Tutkimusta tehdään Hollannin Philipsin vetovastuulla osana IVVES-projektia.
Eräs internetistä saatavilla oleva data-aineisto sisältää magneettikuvat noin 350 Alzheimer-potilaasta ja sitä on hyödynnetty laajalti muistisairauksien tutkimuksessa. Tekoälymenetelmien eli neuroverkkojen kehittämiseen tarvitaan kuitenkin huomattavasti muutamaa sataa kuvaa enemmän opetusmateriaalia. Pölönen hyödyntää tätä kuvapankkia luodakseen laajemman kokoelman eri muistisairauksia edustavista keinotekoisista magneettikuvista.
”Esimerkiksi 10 000 kappaleen synteettisellä datasetillä voisi jo treenata kehittyneitä neuroverkkoja, jotka edelleen voisivat olla apuna esimerkiksi Alzheimerin taudin diagnosoinnissa tai seurannassa”, kertoo Pölönen.
Perinteisestä kuvankäsittelystä neuroverkkopohjaisiin menetelmiin
”Viime vuosina tapahtuneen laskentakapasiteetin ja -teknologian kehittymisen myötä neuroverkoilla voidaan viimein tehdä kaikkea hyödyllistä. Aiemmin koneoppimisalgoritmit suunniteltiin yksityiskohtaisesti tutkijan oman analyysin ja mielikuvituksen pohjalta. Modernit neuroverkkopohjaiset oppivat tietokoneelle syötetystä opetusdatasta itsenäisesti lopputuloksen kannalta parhaan mahdollisen mallin”, kertoo Pölönen.
”Neuroverkko imitoi monin tavoin ihmisaivoja. Se sisältää suuren joukon muistipaikkoja, joilla on miljoonia eri vahvuisia kytköksiä toisiinsa aivan kuten ihmisten aivoissa”, kertoo Pölönen. ”Jokainen neuroverkko on koulutettava erikseen kyseessä olevaan ratkaistavaan ongelmaan. Jotkin verkot koulutetaan tunnistamaan kasvain tai muu kohde, jotkut kenties antamaan diagnoosin ja jotkut tuottamaan synteettisiä kuvia”, hän jatkaa.
Neuroverkko oppii tehtävänsä parissa viikossa
GAN on suosittu neuroverkko, jolla on luotu esimerkiksi hyvin aidoilta näyttäviä kasvokuvia (GAN eli Generative adversarial network)? Miten neuroverkko luodaan generatiivisella kilpailevalla neuroverkolla?
Harri Pölönen valmentaa samanaikaisesti kahta neuroverkkoa kisaamaan keskenään: ” Ensimmäiselle verkolle syötän opetusmateriaaliksi aidot magneettikuvat, joista se ryhtyy luomaan uusia, mahdollisimman saman näköisiä, joskaan ei identtisiä kuvia. Toinen neuroverkko puolestaan toimii valheenpaljastajana ja yrittää tunnistaa, mitkä magneettikuvat ovat aitoja ja mitkä ensimmäisen verkon luomia synteettisiä kuvia. Kolmiulotteisten magneettikuvien tapauksessa verkkojen välinen kilpailu kestää pari viikkoa, kunnes valheenpaljastajaverkko ei toivottavasti enää pysty erottamaan kisakaverinsa luomia synteettisiä kuvia aidoista kuvista. Verkkojen koulutus epäonnistuu, jos verkot eivät opi samassa tahdissa. Valheenpaljastaja ei saa olla liian täydellinen, koska silloin synteettisiä kuvia luova verkko ei koskaan onnistu tehtävässään. Valheenpaljastaja ei saa olla myöskään liian kehno, koska silloin synteettisiä kuvia luovasta neuroverkosta tulee laiska eivätkä sen luomat magneettikuvat ole kovin aidon näköisiä”.
Synteettistä dataa entistä ketterämmin yritysten käyttöön
”Synteettistä dataa on hyödynnetty maailmalla jo muutaman vuoden, ja se soveltuu minkälaiseen dataan tahansa. Aivokuvien anonymisointiin ei ole muita keinoja, koska aivojen rakenteet ovat yksilöllisiä. Synteettisen datan avulla voidaan myös paikantaa datasettien aukkoja ja epätasaisuutta. On mahdollista myös lisätä dataan keinotekoisesti poikkeamia, joita voidaan käyttää järjestelmän opettamiseen tai testaamiseen”, kertoo erikoistutkija Johan Plomp VTT:ltä.
Neuroverkkoasiantuntijat työskentelevät maailmalla yhteisöllisesti, joten työkalut neuroverkkojen rakentamiseen löytyvät ilmaiseksi internetistä open source -periaatteella. ”Menetelmät ja teknologiat paranevat viikosta toiseen, kun kehitystä tehdään yhteisöllisesti maailman johtavien tutkijoiden ja instituutioiden kanssa. Mekin pidämme yhteyttä ja vaihdamme ajatuksia tämän tiimoilta huippuyliopisto MIT:tä myöten”, kertoo Pölönen.
”Olemme kehittäneet viimeisen parin vuoden aikana synteettisen datan luomista. Olemme onnistuneet parantamaan menetelmää, joten kuvat ovat selkeästi matkan varrella parantuneet resoluutioltaan. Laadukkaan synteettisen kuvadata tuottaminen kestää nykyisillä tietokoneilla päivistä viikkoihin, mutta sekin on huomattavasti helpompaa ja nopeampaa kuin keräämällä aitoja kuvia ja hankkimalla niille käyttöluvat”, toteaa Plomp. Tavoitteena on, että synteettistä dataa saadaan nykyistä ketterämmin tarjolle yritysten käyttöön. Tähän tarvitaan vielä hyvä toimintamalli”, toteaa Plomp.
Projekti on osa laajaa kansainvälistä IVVES-hanketta, joka on Eurekan ITEA -klusterin yhteistyöprojekti. Sentavoitteena on parantaa mukautuvien teollisuusjärjestelmien luotettavuutta erilaisilla testaus- ja laadunvarmistusmenetelmillä, joita ovat muun muassa koneoppivien järjestelmien testattavuutta ja läpinäkyvyyttä parantavat ratkaisut, tekoälypohjaiset testausmenetelmät sekä datan laadun varmistamismenetelmät. Projektissa kehitetään myös koneoppimisratkaisujen kehitysmenetelmiä (MLops) ja synteettisen datan generointimenetelmiä.
“Luottamus on erittäin merkittävä tekijä, joka vaikuttaa koneoppimismenetelmien käyttöönottoon esimerkiksi terveysalalla, pankkimaailmassa, kuljetusalalla ja kybertulevaisuudessa. Ilman varmistusmenetelmiä tekoälyn valtava potentiaali jää käyttämättä”, toteaa Plomp.
IVVES-hankkeen koordinaattorina toimii Hollannin Philips, ja projektiin osallistuu 26 kumppania viidestä maasta. Suomesta mukana ovat VTT:n lisäksi F-Secure, Futurice, HeadAI, Solita, Techila ja Helsingin yliopisto. Suomen rahoitus saadaan Business Finlandilta.