Julkaistu: 5.9.2005

Tilastotieteestä tuli kaikkien tieteiden kaveri

Aloitin sarjani Tilastotieteen juuret huhtikuussa vuonna 2003 kirjoittamalla eugeniikasta. Eugeniikan perustaja Francis Galton oli Charles Darwinin serkku ja hänen ajatuksensa luonnollisesta perimästä jatke Darwinin evoluutioteorialle.

Biologinen vaihtelu oli olennainen osa Darwinin teoriaa. Ranskalainen Quetelet oli antanut Galtonille oivalluksen, jonka mukaan normaalijakauma kuvasi tätä vaihtelua. Perinnöllisyyttä kuvasi Galtonin kehittämä keskiarvoon palautumisen (regression towards the mean) teoria. Tästä jäi tilastotieteen käyttöön sana regressio - tosin eri merkityksessä kuin alkuperäinen ajatus. Galton piirsi regressiosuoran vanhempien ja näiden lasten välille graafisesti käyttämättä kuitenkaan pienimmän neliösumman menetelmää, joka olisi jo astrologien ja geodeettien toimesta ollut käytössä. Pienimmän neliösumman menetelmän lineaarisen regressiomallin yhteydessä otti käyttöön vasta Karl Pearsonin oppilas George Udny Yule (1871-1951).

Galton keksi matemaattisen suhteen, jota hän kutsui korrelaatioksi. Myös tämä termi jäi elämään tilastotieteessä.

Jakaumilla kiinni satunnaisuuden saloihin

Normaalijakauma oli aikoinaan syntynyt jo vuosituhansien kestäneiden sattumapelien perustalle. 1500- ja 1600-luvuilla opittiin kombinaatiolaskentaa hyväksikäyttäen laskemaan sattumapelien tulosten todennäköisyyksiä. Jacob Bernoulli keksi sitten suurten numeroiden lain, jonka tarkoituksena oli arvata tapahtuman todennäköisyys niin tarkkaan kuin mahdollista toistamalla koetta riittävän monta kertaa. Kun kyseessä on tilanne, missä tapaus joko esiintyy tai ei esiinny, sarjasta kokeita syntyy binomijakauma. Tämän teorian, jota Bernoulli kutsui arvaamisen taidoksi, perustalle DeMoivre rakensi normaalijakauman binomijakauman rajatapaukseksi, kun kokeiden määrä on erittäin suuri.

Kun astronomit ja maanmittaajat sitten 1700-luvulla alkoivat yhdistellä eri mittaustuloksia yhdeksi havainnoksi, syntyi normaalijakauma uudelleen mittausvirheiden jakaumaksi. Tästä Quetelet oli saanut ajatuksen, että biologiset ilmiöt olivat keskiarvon ympärille kasautuvia luonnon virheitä. Tästä edelleen Galton sai ajatuksen, että normaalijakaumalla voidaan kuvata perinnöllisyyttä.

Galtonin kanssa työskennellyt Karl Pearson havaitsi tilastollisten mallien mahdollisuuden evoluutioteorian todentamisessa. Hän muokkasi Galtonin ajatukset täsmälliseen muotoon. Näin syntyneisiin malleihin liittyvä satunnaiskomponentti tarjosi toimivan vaihtoehdon senaikaiselle deterministiselle tieteenkäsitykselle. Tiede perustuu kokeisiin, ja kokeiden tulokset puolestaan ovat mittaustuloksista syntyviä lukuja. Pearsonin vallankumouksellinen ajatus oli, että nämä luvut eivät ole lukuja sinänsä, vaan satunnaislukuja joita voidaan kuvata todennäköisyysjakaumilla. Näihin jakaumiin perustuvat tilastolliset mallit antavat mahdollisuuden kuvata tämän satunnaisuuden matemaattista luonnetta.

Ajatus sopi erittäin hyvin Pearsonin tieteenkäsitykseen, joka kielsi mahdollisuuden saada tietoa olioista sinänsä. Se, mikä oli todellista, oli havainnoista koostuva todennäköisyysjakauma. Tieteen kohteet eivät olleet sellaisia esineitä, jotka voitaisiin havaita, vaan matemaattisia funktioita, jotka kuvaavat niitä satunnaistuloksia jotka voimme havaita.

Pearson myös havaitsi, etteivät mittaustulokset yleensä olleet normaalisti jakautuneita. Tämän ongelman poistamiseksi Pearson kehitti ns. jakaumaperheen, joka on joukko jakaumia, joita kuvaa neljä parametria. Nämä parametrit ovat keskiarvo, keskihajonta, symmetrisyys (vinous) ja huipukkuus (kurtosis). Huipukkuus kuvaa jakauman kasvamis- ja alenemisvauhtia kuljettaessa vasemmalta oikealle.

Kokeellisten tieteiden apuvälineeksi

Vuosisadan vaihteessa tilastotiede kehittyi moneen eri suuntaan erityisesti eugeniikan parissa työskentelevien matemaatikkojen toimesta. Kehitys pysähtyi kuitenkin ensimmäisen maailmansodan ajaksi miltei kokonaan. Esimerkiksi Pearsonin toimittaman Biometrikan ilmestymiset harvenivat. Vasta maailmansodan jälkeen ja erityisesti toisen maailmansodan aikana tilastotiede koki suuren kehitysvaiheensa. Myös Pearsonin oppilaan ja ehkä kaikkein keskeisintä osaa modernin tilastotieteen historiassa näytelleen englantilaisen tutkijan R.A. Fisherin työt ajoittuivat pääosin 1920- ja 1930-luvuille. Fisherin tieteellisen työn lähtökohtana olivat eläinten ja kasvien jalostuksen ongelmat ja hänet tunnetaan myös ansiokkaana perinnöllisyystieteilijänä. Fisher viitoitti tien tilastotieteen kehittymiselle kokeellisen tutkimuksen keskeiseksi apuvälineeksi.

1900-luvulla voimakkaasti kehittynyt tilastotiede tarjoaa nykyisin menetelmän datan käsittelemiseksi lukuisilla tieteenaloilla.

Genetiikka, ekologia, ympäristön- ja riistantutkimus, maatalous- ja metsäntutkimus, sairauksien syiden tutkimus (epidemiologia), kliiniset hoitokokeet, lääkkeiden tuotekehitys, kansantalouden ennusteet (ekonometria), markkinatutkimus, signaalin- ja kuvankäsittely, teollisuustuotannon ja laboratorioiden laadunvalvonta, väestötutkimus, sosiometria, psykometriikka ...

Tilastotieteen hyödyntäjien lista on pitkä ja kasvaa edelleen.

Ismo Teikari


Päivitetty 6.9.2005