Palkittu tutkimus tekee yksityisyyttä suojaavasta tekoälystä nopeampaa

Yksityisyydensuoja tekoälyn koulutuksessa on tärkeä tutkimuskohde sekä yrityssalaisuuksien turvaamiseksi että anonymiteetin säilyttämiseksi, esimerkiksi kun tekoälyjärjestelmiä koulutetaan arkaluonteisilla terveystiedoilla. Tekoälymallien koulutuksesta voi kuitenkin paljastua yksityisiä tietoja käyttäjän pyytämättä, ja tällaisista vuodoista löytyy lukuisia esimerkkejä niin tutkimuksessa kuin sosiaalisessa mediassa. Yksityisyyden takaamisella on hintansa – tekoälymallien tulisi unohtaa tai peittää koulutusdata, mutta tämän varmistaminen voi olla hidasta ja laskennallisesti kallista, erityisesti kun datamäärät ja mallit ovat suuria. 

Antti Honkelan tutkimusryhmä Helsingin yliopistolla on kehittänyt laskennallisesti tehokkaan ratkaisun, jossa differentiaalinen tietosuoja toteutuu tekoälyn syväoppimisen koulutusvaiheessa. Tutkimus toteutettiin yhteistyössä Suomen tekoälykeskus FCAI:n ja NVIDIAn tutkijoiden kanssa ja se palkittiin Best Paper –palkinnolla IEEE Secure and Trustworthy Machine Learning –konferenssissa maaliskuussa 2026. 

Differentiaalinen tietosuoja on teknologia-alalla hyväksytty standardi, joka takaa halutun tasoisen anonymiteetin mutta mahdollistaa koulutusdatan hyödyntämisen. Väitöskirjatutkija Sebastian Rodriguez kertoo, että tutkimusryhmä on onnistunut nopeuttamaan konenäön tekoälymallien koulutusta tinkimättä differentiaalisesta tietosuojasta. Mallit koulutettiin CSC:n supertietokoneilla. 

Tutkimustulos voi edistää ja helpottaa yksityisyyttä suojaavan koneoppimisen käyttöönottoa 

“Tutkimuksemme tarjoaa käytännön ohjeen laskennallisten resurssien optimointiin, mikä auttaa tekoälyn kehittäjiä saamaan parhaat tulokset laitteistosta”, kertoo Rodriguez. “Menetelmämme on muita vastaavia menetelmiä yleistettävämpi ja kaksi kertaa nopeampi kuin Opacus-ohjelmakirjaston vertailukohdat.” 

Tutkimuksen seuraava vaihe liittyy suurten kielimallien koulutuksen yksityisyyteen. “Suuriin kielimalleihin liittyy ainutlaatuisia ongelmakohtia, jotka vaativat kekseliäitä ratkaisuja muun muassa datanhallinnassa ja hajautetussa tietojenkäsittelyssä”, sanoo Rodriguez. “Kehitämme menetelmää vastaamaan näihin haasteisiin.” 

Julkaisu: Beltran, S. R., Tobaben, M., Jälkö, J., Loppi, N., & Honkela, A. (2026). Efficient and Scalable Implementation of Differentially Private Deep Learning without Shortcuts. In Proceedings of the 2026 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML 2026). DOI: 10.1109/SaTML68715.2026.00030

Avoimesti julkaistu arXiv -alustalla

lisää uutisia:

Amanda Alvarez