Asiantuntija-artikkelit ja ajankohtaisblogit
Sivuston näkymät

Dataräjähdys muutti datan merkityksen yhteiskunnassa – miten siihen pitäisi reagoida?

10.2.2021
Twitterissä: @LindholmMikko
Kuva: Eeva Anundi

Digitaalinen data ympäröi meitä nykyisin joka puolella, ja sen merkitys taloudessa, kulttuurissa ja viihteessä kasvaa koko ajan. Fyysinen maailma on ikään kuin vain alusta, jonka päälle virtuaalinen datamaailma rakentuu. Koska Tilastokeskus on keskeinen datan käsittelijä ja tiedon tuottaja Suomessa, heittää digitalisaatio meille ison haasteen arvioida rooliamme ja palvelujamme uudelleen.

Mutta mitä on data?

Se on tavallisesti joukko havaintoja tai merkintöjä, kuten mittaustuloksia. Data itsessään ei merkitse mitään, vaan vasta tulkinnan avulla se saa merkityksen ja kontekstin. Silloin aletaan puhua datan sisältämästä informaatiosta. Samasta datasta voidaan eri tulkinnoilla saada irti monenlaista informaatiota  myös sellaista, jota dataa kerättäessä ei osattu ajatella. Tähän perustuvat mm. moderni data science ja tiedon louhinta.

Entisaikaan datan tallennusvälineenä oli yleisimmin paperi. Datan siirto tarkoitti paperin kuljettamista ja kopioiminen oli työlästä käsin jäljentämistä. Siirtämisen ja kopioinnin hankaluus hillitsivät ihmisten datanhimoa tehokkaasti.

Nykyään datan kopiointi, säilytys ja siirtely on käytännössä ilmaista, kiitos tietokoneiden, digitaalisten tallennusvälineiden ja internetin. Kun oikeastaan mikään ei enää rajoita datan määrän kasvua, on käynyt ilmi, että ihmisten halu tuottaa, jakaa, käyttää ja omistaa dataa on täysin kyltymätön.

Vuosituhannen vaihteessa alkoi eksponenti­aalisen dataräjähdyksen aikakausi, jota elämme edelleen. Tällä hetkellä internetissä oleva datamäärä kaksin­kertaistuu joka vuosi.

Olen jakanut datan muutamiin yksinkertaisiin alalajeihin havainnollistaakseni niiden erilaista luonnetta ja käyttöä. Jako ei ole mitenkään tieteellinen tai kaiken kattava, mutta auttanee hahmottamaan käynnissä olevaa data­räjähdystä.

Transaktiodata on kaikkein vanhin kerätyn datan muoto, ja se pohjaa tarpeeseen kirjata talteen erilaisia taloudellisia ja hallinnollisia tapahtumia. Suomessa syntymät ja kuolemat on kirjattu kirkonkirjoihin 1600-luvulta alkaen, ja ensimmäiset tietojärjestelmät, kuten pankkitilit tai väestö­rekisteri, liittyivät nimenomaan transaktiodatan hallintaan. Tilasto­keskuksen tilastot dokumentoivat lähinnä transaktiodatan muutoksia.

Lokitieto kuvaa erilaisten tapahtumien kulkua. Sen erottaa transaktiodatasta heikompi rakenteisuus ja se, että lokia voidaan kerätä hyvin pienistäkin muutoksista, tai jopa siitä, että mitään ei tapahdu.

Lokitiedon määrä maailmassa kasvaa paljon nopeammin kuin transaktiodatan, ja kirjausten suunnattoman määrän vuoksi perinteiset taulukkomuotoisen datan käsittelyvälineet eivät oikein sovellu lokitiedon analysointiin.

Teksti, kuva, audio ja video haukkaavat nykyisin valtaosan internetin tietoliikenteestä ja käytössä olevasta tallennustilasta. Niitä käytetään ennen kaikkea ihmisten väliseen viestintään työssä, taiteessa, viihteessä ja sosiaalisessa elämässä. Etenkin kuvaa ja videota syntyy käsittämättömiä määriä: esimerkiksi YouTubeen ladataan 500 tuntia videota joka minuutti. Tämän ryhmän datan analysointi edellyttää tavallisesti jonkinlaista tekoälyä.

Paikkatieto, kartat ja 3D-mallit. Paikkatietoa tallennetaan transaktioiden yhteydessä, esimerkiksi kiinteistökaupoissa, ja sitä kerätään lokeihin, kuten matkapuhelinten sijaintitietoja. Paikkatieto muuttuu hyödylliseksi vasta, kun se asetetaan kontekstiin kartalle, muiden paikkatietojen yhteyteen.  

GPS-paikannuksen avulla matkapuhelinten ja monien muidenkin laitteiden tuottamaan dataan voidaan nykyään lisätä sijainti. Paikkatiedon määrä on räjähtämässä käsiin, jolloin perinteiset analyysi- ja hallintavälineet eivät enää riitä miljardien sijainti­tapahtumien käsittelyyn.

Sensoridata on IoT-vallankumouksen (Internet of Things, esineiden internet) tuoma uusi datan muoto, joka mahdollistaa minkä tahansa sähkö­laitteiden välisen kommunikoinnin netissä. Esimerkiksi autot voivat viestittää liikennevalojen kanssa ja verenpainemittari jakaa tietonsa terveys­rannekkeen kanssa. 

Joidenkin arvioiden mukaan IoT-kyvykkäitä laitteita on maailmassa tällä hetkellä noin 50 miljardia, ja ne tuottavat päivittäin 5 miljardia gigatavua dataa. Kukaan ei tiedä miten tätä kaikkea dataa hallitaan, tai mitä sillä kaikella edes tehdään.

Lisäksi voidaan ajatella, että myös ohjelmakoodi on eräs datan kategoria; koodi antaa koneelle ohjeet, kuinka suorittaa jokin tehtävä. Modernien tieto­järjestelmien koodi­määrät ovat suunnattomia. Arvioiden mukaan maailmassa syntyy viikossa yli 2 miljardia riviä koodia.

Erityinen alaluokka ohjelmakoodista ovat tekoälyjärjestelmien sisään syntyvät koneoppimismallit, jotka voivat pitää sisällään valtavista datamääristä kiteytettyä infor­maatiota. Niiden hallinnasta kenelläkään ei ole vielä mitään käsitystä.

Julkisen, läpinäkyvän tilastoinnin piirissä on vain hyvin pieni osa nykymaailmassa syntyvästä datasta. Transaktiodatan suhteellinen osuus vähenee koko ajan, koska muiden datamuotojen määrät kasvavat paljon nopeammin.

Tämä haastaa paitsi tietoa tuottavat viran­omaiset, myös esimerkiksi median; tulisiko muustakin datasta raportoida jotain? Millainen data on merkityksellistä kansalaisille, yrityksille tai päätöksenteolle?

Esimerkit kertovat ongelman laajuudesta: Missä tilastoidaan kirjoitettujen koodi­rivien määriä? Ovatko käytetyimmät hashtagit tai hakusanojen 10 kärjessä -tulokset yhteiskunnallisesti merkittävää tietoa? Näkyvätkö somen sisällön­tuottajat työvoimatilastoissa? Rakennukset pystyvät pian kertomaan henkilömääränsä  pitäisikö niitä tilastoida?

Yhä suurempi osa yhteiskunnan toiminnasta siirtyy digitaalisen maailmaan, jolloin myös sitä säätelevää lainsäädäntöä tulee jatkuvasti lisää. Miten lakien toteutumista voidaan seurata ilman tilastointia? Onko meillä realistinen kuva ihmisten elämästä ja yhteiskunnan tilasta, jos emme seuraa ja analysoi myös datamaailman ilmiöitä?

Tämä kaikki vaatii uudenlaista osaamista sekä uusia välineitä, menetelmiä ja normeja. Data science -menetelmien on muututtava yksittäisistä käsityö­suorituksista monistettaviksi vakio­ratkaisuiksi, joita kaikki tieto­ammattilaiset osaavat käyttää. Tässä on suuri haaste tilasto­virastoille ja muille tiedontuottajille.

 

Kirjoittaja työskentelee Kehittäminen ja digitalisaatio -palvelualueen ylijohtajana Tilastokeskuksessa. Hän käsittelee blogisarjassaan datan olemusta ja merkitystä nyky-yhteiskunnassa.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Lue samasta aiheesta:

tk-icons