Aitoa hyötyä keinotekoisesta datasta

3.11.2022

HCT 2.0 -projektin toisen työpaketin tavoitteena oli yksityisyyttä varjelevien oikeaan potilasdataan perustuvien keinotekoisten tietoaineistojen luominen. Työpaketin osana valmistui oikeasta datasta synteettistä dataa generoiva koneoppimismalli, joka suunniteltiin tuottamaan ominaisuuksiltaan ja tilastollisilta päätelmiltään alkuperäisen kaltaista, mutta tilastollisen tietosuojan huomioivaa aineistoa.

Yksityisyyttä varjelevan, synteettisen datan luonti on aktiivinen tutkimuksen kohde ja hyvälaatuinen synteettinen data voisi tulevaisuudessa mahdollistaa sellaisten arvokkaiden tietoaineistojen käytön, joita ei tällä hetkellä voida tietosuojariskien vuoksi käyttää. Laadukasta synteettistä dataa generoivasta mallista tai menetelmästä olisi hyötyä esimerkiksi innovaatiotoiminnassa, testauksessa, opetuksessa ja tutkimustyössä.

Termin synteettinen data merkitys vaihtelee käyttötarkoituksesta ja kontekstista riippuen. Tilastolliseen tietosuojaan sovellettuna synteettisen datan generoinnilla voidaan kuitenkin sanoa olevan kaksi tavoitetta. Ensimmäinen ja tärkein tavoite on estää alkuperäisen aineiston yksittäisistä tietueista (kuten potilasdatassa yhteen henkilöön liittyvistä tiedoista) sellaisten asioiden oppiminen, jota ei voida päätellä muusta aineistosta.

Toisena, samanaikaisena tavoitteena on pyrkiä säilyttämään lähdedatan tilastolliset ominaisuudet, eli pitämään synteettisestä aineistosta tehtävät päätelmät mahdollisimman lähellä lähdedatan vastaavia. Toisen tavoitteen voi ilmaista myös pyrkimyksenä maksimoida synteettisen datan utiliteetti. Synteettinen data eroaa simuloidusta datasta siinä, ettei simuloitua dataa ole johdettu mistään yksittäisestä todellisesta aineistosta. Esimerkkinä simuloidusta datasta voidaan mainita vaikkapa jonkin mekanistisen matemaattisen mallin avulla muodostettu data.

Tarve synteettiselle datalle on syntynyt dataperustaisten laskennallisten menetelmien kehityksen ja lisääntyneen käytön myötä. Erilaisten tietoaineistojen kysynnän kasvu on johtanut siihen, että yksityishenkilöistä kerätyn datan toissijaiseen käyttöön kohdistuu suurta mielenkiintoa niin tieteen kuin liike-elämänkin suunnilta. Valitettavasti utiliteettia säilyttävä tietoaineistojen anonymisointi, eli niissä esiintyvien henkilöiden yksityisyyden suojaaminen on osoittautunut vaikeaksi ongelmaksi. Tutkijat ovat osoittaneet toistuvasti (ks. esim. Narayanan ja Shmatikov 2008, Sweeney 2002), että perinteisesti käytettyjen arkaluontoisten muuttujien poistoon tai tarkkuuden vähentämiseen perustuvien anonymisointimenetelmien tarjoama yksityisyydensuoja on murrettavissa.

Ongelmana ovat etenkin hyökkäykset, joissa käytetään hyväksi ulkopuolista tietoa tietyssä aineistossa olevista datapisteistä. Tällaista lisätietoa, kuten vaikkapa tietoa henkilön olinpaikasta tiettynä aikana tai hänen ominaisuuksistaan voidaan saada esimerkiksi sosiaalisesta mediasta. Yhdistelemällä eri tietoja voidaan selvittää, ovatko henkilön tiedot osa murrettavaa aineistoa tai jopa tunnistamaan henkilö ja näin saamaan selville arkaluontoisia tietoja datasta, vaikka muuttujia olisi poistettu tai muutettu. Arkaluontoisten aineistojen turvallinen hyödyntäminen vaatiikin uusien, parempien menetelmien kehittämistä ja käyttöönottoa.

Anonymisoinnin tutkimuksella on vuosikymmeniä pitkät perinteet ja utiliteettia säilyttävän, yksityisyyttä varjelevan synteettisen datan luonti on aktiivinen tutkimuskohde. Anonymiteetin ja utiliteetin, eli aineiston ominaisuuksien säilyttämisen ja yksityisyyden varjelemisen suhteesta tiedetään, että sellaisen synteettisen datan tuottaminen, jossa alkuperäisen aineiston ominaisuudet, ja niistä tehtävien päätelmien lopputulokset, pysyvät täysin samana kuin alkuperäisessä aineistossa, on mahdotonta (Ks. esim. Alvim et al. 2011). Kyse onkin aina kompromissista: täysin anonyymi data tarkoittaa dataa, josta ei voida päätellä mitään eikä näin myöskään oppia mitään hyödyllistä. Huolimatta siitä, että täysin riskitöntä tapaa julkaista tietoja ei ole, on ammattitaidolla ja huolellisesti tehdyn yksityisyyttä varjelevan synteettisen datan tarjoaman suojan murtaminen kuitenkin parhaimmillaan erittäin vaikeaa ja työlästä.

Anonymiteetin ja utiliteetin välisen suhteen vuoksi on anonymisoidun datan julkaisemisessa aina lopulta kyse riskistä ja riskiarviosta, jonka tekee ihminen. Riskiin vaikuttavat esimerkiksi lähdeaineiston koko, tietojen arkaluonteisuus ja se, miten laajalle yleisölle synteettinen data jaetaan. Hyvälaatuisen synteettisen datan luominen vaatii asiantuntemusta anonymisaation matemaattisesta ja tilastotieteellisestä taustasta sekä asiaa koskevasta tutkimuksesta. Kysynnän kasvaessa on yksityisen synteettisen datan ympärille syntynyt kaupallista toimintaa. Yksityiset palveluntarjoajat voivat antaa tieteellisen näytön näkökulmasta perusteettomia lupauksia täydellisestä anonymiteetista. Aiheesta lukiessa onkin hyvä olla kriittinen.

Synteettisen datan hyödyt ja käyttökohteet

Synteettisellä datalla on potentiaalia tieteen ja kaupallisen toiminnan kannalta niin olemassa olevien prosessien kehittämisen kuin uusienkin käyttökohteiden näkökulmasta. Helppo pääsy laadukkaaseen synteettiseen dataan parantaisi merkittävästi nykytilannetta esimerkiksi innovaatiotoimintaan ja tieteelliseen tutkimukseen liittyvän aineiston hankinnan kannalta. Yrityksille ja tutkijoille, jotka haluaisivat kokeilla uusia menetelmiä, voi aidon datan hankinta olla ajan ja resurssien kannalta raskas prosessi. Esimerkiksi Suomessa vuonna 2021 FinDatan hakemusprosessi kesti keskimäärin 2-12 viikkoa 75 prosentissa hakemuksista ja 3-6 kuukautta 25 prosentissa hakemuksista. Eikä tämä vielä tarkoita, että pyyntö hyväksyttäisiin (Findata, 2021).

Ajatellaan vaikkapa yrityksessä toimivaa tutkijaa tai tuotekehittelijää, joka tutkii uusia mallinnusmetodeja ja haluaisi testata niitä oikean kaltaisella datalla. Sillä, etteivät tulokset ole aivan tarkan yhdenmukaisia alkuperäisen datan kanssa, ei ole tässä tapauksessa suurta merkitystä, olettaen, että päätelmät ovat lähellä oikean datan vastaavia. Kilpailullisissa ympäristöissä toimiville kuukausien odotusajat ja ylipäätään epävarmuus siitä, onko testaamiseen soveltavaa dataa saatavilla, voivat olla ratkaiseva tekijä menetelmän tai projektin tulevaisuuden kannalta.

Yliopistojen kontekstissa hypoteesien testaamisen mahdollistaminen voisi olla yksi synteettisen datan käyttökohde. Jos tutkija pääsisi testaamaan ideaansa datalla, jonka suhteen on varmistettu, että tulos on samansuuntainen kuin aidossa, voitaisiin tehdä synteettisen datan avulla päätös siitä, aloitetaanko datan haku- tai keruuprosessi. Opetuksen kehityksen näkökulmasta synteettinen data mahdollistaisi realististen aineistojen käytön, mikä olisi suuri harppaus suhteessa nykytilanteeseen, jossa todellisuutta vastaavaa dataa, jota saisi käyttää opetuksessa, on saatavilla vähän.

Jo olemassa olevat prosessit voivat myös hyötyä synteettisestä datasta. Synteettisen datan avulla voitaisiin erilaisessa kehitys- ja testaustyössä välttyä ottamasta riskiä siinä, että alkuperäinen data jaettaisiin tilanteissa, jossa synteettinenkin vastine riittäisi. Kuten muussakin tietoturvassa, pääsyoikeuksien laajuutta voitaisiin jakaa tarveperustaisesti eri käyttötarkoituksia varten mukauttamalla synteettisen datan utiliteetin ja anonymiteetin välistä tasapainoa tarpeen ja käyttökohteen mukaan.

Kirjoittajat:

Valtteri Nieminen: Projektitutkija, terveysteknologia, Turun yliopisto

Arho Virkki: Tietopalvelujohtaja, Auria Tietopalvelu

Lisätietoa kiinnostuneille

Yleisesti potilasdatan anonymisoinnista (Ks. esim. El Emam, Rodgers ja Malin 2015).

Menetelmä pohjaa nk. Generative adversarial network (GAN) neuroverkkomalleihin (Ks. yleisesti

sesti Goodfellow 2016). Teknisesti lähellä olevia menetelmiä (Ks. esim, Gulrajani et al. 2017, Chen, Orekondy ja Fritz 2020).

Lisätietoja menetelmästä antaa Auria-tietopalvelut, VSSHP / VARHA, https://auria.fi

Viitteet

Alvim, Mario S et al. (2011). “Differential privacy: on the trade-off between utility and infor-´ mation leakage”. Teoksessa: International Workshop on Formal Aspects in Security and Trust. Springer, s. 39–54.

Chen, Dingfan, Tribhuvafnesh Orekondy ja Mario Fritz (2020). “GS-WGAN: A gradient-sanitized approach for learning differentially private generators”. Advances in Neural Information Processing Systems 33, s. 12673–12684.

El Emam, Khaled, Sam Rodgers ja Bradley Malin (2015). “Anonymising and sharing individual patient data”. British Medical Journal 350.

Finnish Social and Health Data Permit Authority Findata (2021). 2021 Presentation on Findata activities. URL: https://findata.fi/wp-content/uploads/sites/3/2021/12/

Findatan-infotilaisuus-8-12-2021-esitysmateriaalit.pdf.

Goodfellow, Ian J. (2016). NIPS 2016 Tutorial: Generative Adversarial Networks. URL: http:// arxiv.org/abs/1701.00160.

Gulrajani, Ishaan et al. (2017). “Improved training of Wasserstein GANs”. Advances in neural information processing systems 30.

Narayanan, Arvind ja Vitaly Shmatikov (2008). “Robust de-anonymization of large sparse datasets”. Teoksessa: 2008 IEEE Symposium on Security and Privacy. IEEE, s. 111–125.

Sweeney, Latanya (2002). “k-anonymity: A model for protecting privacy”. International journal of uncertainty, fuzziness and knowledge-based systems 10.05, s. 557–570.

HCT 2.0-hanke on saanut rahoituksen Suomen Akatemian TKI-kumppanuusverkostorahoituksesta. Hanke päättyy 2022 vuoden lopulla. Hankepartnereina ovat Turun yliopisto, Turun ammattikorkeakoulu, Yrkeshögskolan Novia ja Åbo Akademi.