Tilastot elämässäni, huhtikuu

Supertietovarastoa rakentamassa

Olen saanut olla rakentamassa supertietovarastoa, jossa rekistereillä on korvattu väestölaskentojen suora tiedonkeruu, ja olen siitä ylpeä. On ollut kiehtovaa pyöritellä megatiedostoa ja tuottaa ainutlaatuista tai ainakin täsmällisyydeltään aivan uutta tietoa, kirjoittaa kehittämispäällikkö Pekka Myrskylä Tilastokeskuksesta.

Lomakelaskennan sijaan rekisteripohjainen järjestelmä

Olin 1980-luvun alussa projektipäällikkönä, kun Suomeen rakennettiin rekisteritietoihin perustuvaa väestölaskentajärjestelmää. Vuoden 1980 lomakelaskenta oli maksanut nykyrahassa noin 50 miljoonaa euroa. Rahoja myöntäessään valtiovarainministeriö antoi ukaasin, että tällainen raha myönnettiin nyt viimeisen kerran. Oli luotava selvästi halvempi järjestelmä.

Tanska oli ensimmäisen maailman maana toimittanut vuoden 1980 väestö- ja asuntolaskennan vain rekisteritietoja hyväksikäyttäen. Alkoi monivuotinen projekti, johon osallistui valtiovarainministeriön, Verohallituksen, Väestörekisterikeskuksen, työnantajajärjestöjen ja keskuskauppakamarin korkeinta johtoa. Jokaisen kokouksen aluksi Etelärannan voimahahmot haukkuivat minut perusteellisesti, ja hieman muitakin Tilastokeskuksen edustajia, tällaisen mielettömän lisärasituksen vierittämisestä Suomen elinkeinoelämälle.

Ilman valtiovarainministeriön vahvaa tukea hanke ei olisi koskaan onnistunut. Ministeriön tuolloisia voimahahmoja olivat Teemu Hiltunen, Tauno Ylinen ja nuori budjettisihteeri Erkki Virtanen. Pitkän väännön, lukemattomien kokeilujen, yritysvierailujen ja seminaarien jälkeen, rekisteripohjaiset tiedot tuotettiin ensimmäisen kerran vuodelta 1987, toisena maana maailmassa.

Yhdistelmä noin 30 rekisteristä

Järjestelmä yhdistelee noin 30 erilaista rekisteriaineistoa, joista tärkeimpiä ovat henkilörekisteri, rakennus- ja huoneistorekisteri, verotuksen eri rekisterit, Eläketurvakeskuksen, Kansaneläkelaitoksen, työ- ja elinkeinoministeriön ja Tilastokeskuksen omat rekisterit (yritysrekisteri, tutkintorekisteri, opiskelijarekisteri). Yritysrekisteri piti laajentaa käsittämään kaikki yritykset ja julkisyhteisöt sekä muuttaa tuotanto vuosittaiseksi. Vastustus oli niin kiihkeää, että jopa johtajia piti vaihtaa.

Rakennetun järjestelmän tarkoitus oli alun perinkin tuottaa kaikki tiedot vuosittain. Kunnat ja muukin aluehallinto olivat lopen kyllästyneitä saamaan kunnittaisia ja osa-aluetietoja vain joka viides vuosi. Tietojen saaminen vuosittain oli rekisterilaskennan suurin etu. Tärkeätä oli sekin, että vuosituotanto pyöri nyt noin miljoonalla eurolla aiemman 50 miljoonan euron asemesta.

Tilastojen kultakaivos - Data Mine

Heti ensimmäisen tuotantovuoden jälkeen tajuttiin, että meillä on käsissä varsinainen kultakaivos - Data Mine -, johon alettiin kumuloida tietoja vuosittain. Nyt tietoja on koottu 25 vuotta eli neljännesvuosisata.

Tänä aikana tiedostossa on "käynyt" 8 miljoonaa asukasta, joista noin 4 miljoonaa on ollut siinä koko ajan. 25 vuoden aikana on kuollut 1,6 miljoonaa asukasta ja muuttanut maasta 0,3 miljoonaa. Väestö on kasvanut 1,6 miljoonalla syntyneellä ja 0,5 miljoonalla maahan muuttaneella.

Kun jokaisesta asukkaasta on joka vuosi tietoja runsaat 1000 bittiä ja puolella vuosia on 25 ja jos toisella puolella vuosia on keskimäärin 12 niin päästään ainakin 150 miljardiin bittiin. Tiedot ovat tietovarastossa, joka on melko massiivinen.

Meistä jokaisesta on siellä kaikki 25 vuoden aikaiset työsuhdepätkät, opiskelu-, työttömyys-, eläke- ym. jaksot. On myös kaikki tutkinnot, tulot työsuhteittain ja kaikki muutkin tulot, työ- ja työttömyyskuukaudet, asuntokuntien ja perheiden kokoonpano vuosittain, asuntojen fyysiset ominaisuudet, hallintaperusteet, sijaintikoordinaatit, ammatit, sosioekonomiset asemat, rakennustiedot ja kesämökkitiedot. Lisäksi sukupolvet voidaan yhdistää, koska kaikilla on tietueellaan vanhempien ja mahdollisten lastensa henkilötunnukset. On siinä numero poikineen, onkohan tämä jo sitä uutta Big Dataa?

Kuinka moni työtön palaa työelämään?

Tietovarantoa käytettiin aluksi tarkkojen poikkileikkaustietojen tuottamiseen eli selvitettiin, onko maahanmuuttajien työttömyys Jakomäessä korkeampaa kuin vaikka Maarianhaminassa tai paljonko nuoria syrjään jääneitä on eri kunnissa. Varsin pian kuitenkin huomattiin uuden järjestelmän mahdollistama seuranta-asetelma.

Ensimmäinen huomiota herättänyt "selvitys" tehtiin vuonna 1992 nimellä "Keistä tuli työttömiä". Katsottiin, mistä lamakauden työttömät olivat lähtöisin ja mitkä ominaisuudet työttömiä leimasivat. Samoihin aikoihin aloitettiin ns. sijoittumistilasto, jossa seurataan jopa oppilaitoksen tarkkuudella valmistuneiden menestymistä työmarkkinoilla.

Seurantamahdollisuutta valaiskoon ylijohtaja Jukka Pekkariselle tekemäni seuranta, jossa katsotaan kuinka vuonna 2007 työnsä menettäneet ovat palanneet työelämään. Nuorista työttömistä palaa puolet heti ensimmäisenä työttömyysvuotenaan, mutta sen jälkeen enää harva työtön työllistyy. Yli 50-vuotiaista työttömistä palaa vain murto-osa.

Korkeasti koulutetuilla paluumahdollisuudet ovat selvästi paremmat kuin perusasteen varaan jääneillä. Lisäksi on niin, että ne, jotka pääsevät takaisin töihin, pääsevät miltei heti. Parin kolmen työttömyysvuoden jälkeen töihin pääseminen on onnellinen sattuma nuorillakin.

Vuonna 2007 työttömiksi joutuneiden työllistyminen (%) iän mukaan vuosina 2008–2011

"Wonderland of Statistics"

Nyt yhteistyöni tämän supertietovaraston kanssa on valitettavien demografisten syiden vuoksi käymässä mahdottomaksi. Jään sitä kaipaamaan. On ollut kiehtovaa pyöritellä tätä megatiedostoa, löytää työttömyyden syitä ja seurauksia, seurata syrjään jääneitä nuoria ja ikääntymisen vaikutuksia työmarkkinoilla, selvittää koulutustason vaikutusta työuran pituuteen, tuottaa ainutlaatuista ja ainakin täsmällisyydeltään aivan uutta tietoa.

Useimmissa maissa tällaisista tilastoista ei nähdä edes unta. Suomella onkin vahva kansainvälinen maine käsitteellä "Wonderland of Statistics". Hienoa, että olen saanut olla sitä rakentamassa.

 


Päivitetty 23.4.2013

Selainversio

Tilastokeskus