Tietoaineiston tietosuojan varmistamisessa on tarkastella sitä, ettei käsiteltävässä tietoaineistossa ole kohdeyksiköitä, joiden identiteetti tai ominaisuuksia on mahdollista suoraan tai välillisesti paljastaa. Suora tunnistaminen vaatii, että tietoaineistossa on mukana jokin kohdeyksikön yksikäsitteisesti erotteleva ominaisuus, esimerkiksi nimi, osoite, y-tunnus. Välillisestä tunnistamisesta on kyse silloin, kun kohdeyksikkö voidaan tunnistaa hyödyntämällä useampaa ominaisuutta, esimerkiksi ammattitietona kunnanjohtaja ja lisätietona kunta, jossa henkilö on töissä. Yksittäisen kohdeyksikön ominaisuuksia on mahdollista paljastua myös ilman kohdeyksikön identifioitumista sellaisessa tilanteessa, jossa isompi ryhmä, johon kohdeyksikkö kuuluu, jakaa joitain samoja ominaisuuksia. Esimerkiksi työhyvinvointia tutkivassa kyselyssä kaikki tietyn osaston henkilöt ovat vastanneet kyselyyn ja ilmaisseet tyytymättömyytensä fyysiseen työskentely-ympäristöön.
Paljastumisriskiä arvioitaessa on suuri ero siinä, puhutaanko yksikkötason aineistosta vai koostetusta eli jollain tapaa aggregoidusta tiedosta. Kun käsitellään yksikkötason aineistoa, jossa yksittäisen kohdeyksikön ominaisuuksia tarkastellaan kohdeyksikkökohtaisesti, voi välillinen paljastuminen olla edelleen mahdollista, vaikka tietoja olisi ominaisuuksittain karkeistettu. Hyvä esimerkki on pitkittäiset tietoaineistot, jossa tarkastellaan kohdeyksikön tilannetta pidemmällä aikavälillä. Henkilön muutto- tai työhistoria voi hyvin nopeasti johtaa tilanteeseen, jossa välillisen tunnistamisen mahdollisuutta ei voida sulkea pois, vaikka tietoja karkeistettaisiin jonkin verran. Yksikköaineistojen tapauksessa paljastumisriskiä tuleekin tarkastella laajasti useampia ominaisuuksia yhtä aikaa huomioon ottaen. Yleisesti yksikköaineistojen anonymisointi karkeistuksia ja tiedon rajaamista hyödyntäen johtaa pienten lähinnä esimerkkitarkoituksiin käytettävien tietoaineistojen tuottamiseen. Vaihtoehtoisia tietosuojamenetelmiä ovat esimerkiksi sotkevien tietosuojamenetelmien käyttö, (moni)imputointi tai synteettisten aineistojen tuottaminen.
Tilastokeskus on tuottanut opetuskäyttöön tarkoitettuja anonyymejä yksikkötason tietoaineistoja. Näistä aineistoista saatavat tulokset voivat olla suuntaa antavia, mutta ne eivät missään tapauksessa sovellu tilastollisiin selvityksiin tai tieteelliseen tutkimukseen. Lisätietoja opetusaineistoista.
Koostetun eli aggregoidun tiedon tapauksessa puhutaan tiedoista, joihin on koottu useamman kohdeyksikön saamia ominaisuuden arvoja. Nämä tiedot voidaan jakaa kohdeyksiköiden lukumäärää kuvaaviin frekvenssitaulukoihin ja ominaisuuksien arvoja kuvaaviin määrätaulukoihin, joissa kerrotaan esimerkiksi ominaisuuden summista tai keskiarvoista. Frekvenssitaulukoiden osalta paljastumisriski määritellään kunkin solun soluarvon mukaan kynnysarvona, jonka verran solussa on vähintään oltava kohdeyksiköitä. Kynnysarvo riippuu tarkasteltavista ominaisuuksista. Tilastokeskus tuottaa viralliset väestötilastot osin jopa yksittäiset henkilömäärät tilastoon sisällyttäen. Yleisesti kuitenkin suojaus vaatii vähintään kolmea kohdeyksikköä solussa. Tällä minimiarvolla vältetään tilanne, jossa kaksi samat ominaisuudet jakavaa kohdeyksikköä voisivat päätellä toistensa arvot julkaistusta tiedosta. Tilastokeskuksessa korkeampaa kynnysarvoa käytetään silloin, kun tarkastellaan kuntaa tarkemman aluetason tietoja (kynnysarvo voi nousta viiteenkymmeneen, kun tarkastellaan ruututietoja) ja yleensä kynnysarvo on kymmenen, jos kyseessä on tietosuoja-asetuksen mukaiset erityiset tietoryhmät tai rikostietoja.
Määrätaulukoiden tapauksessa pelkkä kynnysarvon tarkastelu ei riitä estämään toisen kohdeyksikön ominaisuuden arvojen päättelyä, jos kohdeyksiköt ovat samassa solussa. Tällöin Tilastokeskuksessa käytetään paljastumisriskissä olevien solujen tunnistamiseen lisäksi dominanssisääntöä, jolla suojattavaksi määräytyvät solut, joissa yksittäinen kohdeyksikkö tai useampi kohdeyksikkö yhdessä dominoi eli tuottaa suurimman osan solun arvosta. Esimerkiksi, jos solussa tarkastellaan yritysten liikevaihtoa toimialan ja alueen mukaan, niin ei haluta, että yksittäisen ison yrityksen arvo on mahdollista päätellä solusta, jossa muut yritykset ovat liikevaihdoltaan hyvin pieniä suhteessa suurimpaan.
Ensisijaiset paljastumisriskissä olevat solut on mahdollista määrittää kynnysarvon tai dominanssisäännön avulla. Jos tiedot poistetaan eli peitetään julkistettavasta tietoaineistosta, on näiden arvot helppo laskea uudelleen, jos tietoaineisto sisältää myös marginaalisummia eli summat yli rivien ja sarakkeiden. Tällöin tietojen suojaamisen varmistamiseksi on käytettävä täydentävää peittämistä. Täydentävän peittämisen osalta on olemassa erikoisohjelmistoja, jotka varmistavat riittävän suojauksen toissijaisen peittämisen soluja määritettäessä. Tällaisia erikoisohjelmistoja on esimerkiksi Tau-Argus ja R-paketti sdcTable. Lisätietoja ohjelmistoista GitHubissa.
Lisätietoja tietojen suojaamisesta Tilastokeskuksen tutkijoille suunnatusta materiaalista: