Tekoäly tunnistaa sinut – mitä se kertoo muille?
Mitä enemmän tekoälyjärjestelmien käyttö laajenee, sitä suuremmiksi kasvavat väärinkäytön riskit. Tietosuojan ja tietoturvan on oltava kirkkaana mielessä, kun järjestelmiä kehitetään, kirjoittaa professori Antti Honkela.
Viime kuukausina internet-yleisöä on hämmästyttänyt ChatGPT-tekoäly, joka tuottaa ällistyttävän uskottavia – joskin toisinaan vääriä – vastauksia moniin kysymyksiin ja tehtäviin. ChatGPT:n yksinkertaisempi sukulainen löytyy monista sovelluksista ennustavana tekstinsyöttönä, joka ehdottaa todennäköisiä seuraavia sanoja. Miltä tuntuisi, jos sähköpostia kirjoittaessa kännykkä osaisi täydentää tekstin sekaan henkilötunnuksesi?
Oletko sinä ainoa, joka saa tämän ehdotuksen, vai näkevätkö muut saman? Mitä muuta tekoäly tietää sinusta ja kertoo ehkä muillekin?
Liikkeellä arkaluontoista dataa
Datan perusteella opetetut tekoälyjärjestelmät ovat alkaneet mullistaa maailmaa tällä vuosikymmenellä. Niistä on tullut tärkeä arjen apu.
Ennustavia tekstimalleja opetetaan syöttämällä niille suuri määrä tekstiä. Tutkijat ovat osoittaneet, että kehittyneet mallit ovat erittäin hyviä muistamaan sellaisiakin yksityiskohtia, jotka ovat esiintyneet ainoastaan yhdessä opetusaineiston dokumentissa. Nämä yksityiskohdat on mahdollista saada mallista ulos, mikä voi vaarantaa aineistossa esiintyvien henkilöiden tietosuojaa.
Tekoälyjärjestelmien opettamisessa käytetään yhä enemmän hyvin arkaluontoista dataa. Esimerkiksi terveystiedot ovat haluttuja, koska niiden perusteella voidaan rakentaa monenlaisia päättelyketjuja.
Toisaalta moni tavallinen kännykkäsovellus kerää kehittäjilleen rutiininomaisesti käyttäjän sijaintitietoja. Niiden perusteella voidaan päätellä pelottavan paljon itse kunkin kiinnostuksen kohteista ja tuttavuuksista. Henkilön päivittäiset rutiinit voivat kiinnostaa myös rikollisia.
Suuria riskejä liittyy erityisesti niin sanottuun generatiiviseen tekoälyyn. Sillä voidaan tuottaa tekstiä sekä luoda synteettisiä kasvokuvia tai vaikka potilaskertomuksia.
Esimerkiksi ChatGPT:n tasoisen mallin opettamiseen valjastetaan koko internetin verran dataa, joten sen tarkistaminen ja kaikkien luottamuksellisten tietojen poistaminen on mahdotonta. Järjestelmien päälle onkin yritetty rakentaa suodattimia estämään epätoivottujen tietojen näkymistä loppukäyttäjille, mutta nämä eivät ole koskaan täydellisiä.
Huijarin ja kiusaajan paratiisi?
Tekoälyjärjestelmiä käytetään usein kuvien luokittelussa, kuten liikennemerkkien tunnistuksessa. Vaikka nämä järjestelmät toimivat usein hämmästyttävän hyvin, ne havaitsevat maailman hyvin eri tavalla kuin ihmiset.
Ihmisen näkökulmasta merkityksettömän pieni muutos kuvassa saattaa harhauttaa koneen kokonaan. Tutkijat ovat esitelleet esimerkiksi tarroja, joilla liikennemerkkien tunnistusjärjestelmä saadaan luulemaan stop-merkkiä nopeusrajoitukseksi. Täten harhautettu autonominen ajoneuvo saattaisi aiheuttaa huomattavan turvallisuusriskin.
Tekoälyjärjestelmiä käytetään myös paljon käyttäjien lähettämien viestien, kuvien ja videoiden sisällön valvontaan ja sopimattoman sisällön tunnistamiseen. Luotettavan valvontajärjestelmän rakentaminen on hyvin vaikeaa. Varsinkin mikäli järjestelmä ei päivity jatkuvasti, yritteliäs käyttäjä löytää ennen pitää aukon, jota voi hyödyntää. Järjestelmiä ei voi toisaalta säätää niin tiukalle, että normaali käyttö häiriintyy.
Järjestelmän rakentamisen tuotantoketjuun vaikuttava hyökkääjä voi helpottaa huijauksia piilottamalla malliin takaportin. Tällöin sopiva sana tai kuvio voi laukaista järjestelmän toimimaan hyökkääjän haluamalla tavalla. Tällaista takaporttia on usein mahdotonta havaita valmiista järjestelmästä, jolloin suojautumisen pitää perustua kehittäjien ja työkalujen luotettavuuden varmistamiseen.
Laajoja uutiskynnystä ylittäneitä esimerkkejä tekoälyjärjestelmien tietoturvaongelmien tahallisesta väärinkäytöstä ei onneksi vielä ole. Järjestelmien yleistyessä riskit kasvavat, erityisesti ellei niiltä osata suojautua.
Turvallista teknologiaa tarjolla
Tekoälyjärjestelmien väärinkäyttöriskejä voidaan vähentää sekä teknisin että hallinnollisin keinoin.
Käyttäjien tietojen liiallista muistamista voidaan estää differentiaalisen tietosuojan avulla. Se takaa, ettei järjestelmä voi riippua merkittävästi kenenkään yhden käyttäjän tiedoista. Viimeksi kuluneiden 15 vuoden aikana nopeasti kehittynyt menetelmä on jo laajassa käytössä teknologiayhtiöissä ja leviämässä erityisesti Yhdysvalloissa myös julkishallinnon käyttöön. Käyttöä olisi myös meillä, mutta soveltajien osaaminen laahaa valitettavasti perässä.
Myös tietoturvan ja mallien harhauttamisen haasteisiin on kehitetty ratkaisuja. Riskit ovat kuitenkin edelleen suuret, ja uhkana on kiihtyvä toinen toistaan kehittyneempien hyökkäys- ja puolustusmenetelmien varustelukierre.
Tietosuojaa ja tietoturvaa parantavilla ratkaisuilla on usein välitön hinta: niiden rakentaminen tuottaa lisätyötä järjestelmän valmistajalle ja monesti heikentää järjestelmän tarkkuutta. Toisaalta turvaratkaisujen laiminlyönnin hinta voi olla paljon korkeampi, jos käyttäjät ja opetusdatan lähteet joutuvat väärinkäytösten kohteeksi.
Markkinataloudessa valmistajat tekevät sitä, mille on kysyntää. Siksi valistuneiden kuluttajien ja järjestelmien tilaajien tulisi alkaa vaatia turvallisempia ja tietosuojaa kunnioittavia ratkaisuja.
Usein käyttäjän todelliset valinnanmahdollisuudet ovat kuitenkin pienet, ja riskit kohdistuvat myös ulkopuolisiin, jolloin tarvitaan suojaksi sääntelyä. Tietosuojasääntely onkin tavallaan tietoyhteiskunnan sähkö- ja paloturvallisuussääntelyä.
Pitäähän siltojenkin olla turvallisia
Differentiaalinen tietosuoja on loistava esimerkki perustutkimuksen voimasta. Alun perin vuonna 2006 esitelty teoreettinen käsite on käytössä muun muassa kaikissa älypuhelimissa ja Yhdysvaltojen väestölaskentatietojen julkaisussa.
Tutkimus turvallisempien tekoälyjärjestelmien kehittämiseksi jatkuu. Suomen tekoälykeskus FCAI on tälläkin alalla Euroopan kärkijoukoissa. Kova kilpailu vaatii jatkuvia panostuksia asemien säilyttämiseksi.
Kilpailukykyinen tutkimus on välttämätön edellytys alan osaamiselle ja koulutukselle. Olen opettanut vuodesta 2019 alkaen Helsingin yliopistolla aihetta luotettavan koneoppimisen kurssilla. Koska ala kehittyy vauhdilla, oppikirjoja ei ole, vaan materiaali on tehtävä itse. Sitä pitää päivittää vuosittain tietämyksen lisääntyessä. Tämä olisi mahdotonta ilman vahvaa tutkimuspohjaa.
Tavallisten tekoälyjärjestelmien kehittäminen on nykyään hyvien työkalujen takia helppoa, ja kehittäjien määrä kasvaa jatkuvasti. Jos kuitenkin järjestelmältä vaaditaan vahvoja turvajärjestelyjä, niiden kehittäminen on paljon vaikeampaa ja vaatii vankkaa osaamista.
Toivoa sopii, että kriittisiin sovelluksiin käytettävien tai luottamuksellisella datalla koulutettavien järjestelmien kehittäjillä on niiden turvallisuuden aitoa asiantuntemusta. Samaa odotamme esimerkiksi kerrostalojen tai siltojen suunnittelijoiltakin.
Teksti on julkaistu ensimmäisen kerran Mustread Akatemiassa 14. helmikuuta 2023.