Tilastollisten otantatutkimusten monivaiheinen alku

Koko dokumentti sivutettuna


Kirjoittaja: Vesa Kuusela on kehittämispäällikkö Tilastokeskuksen Elinolot-yksikössä. Artikkeli on julkaistu Tilastokeskuksen Hyvinvointikatsauksessa 2/2011.

Tilastotieteellisen otantateorian perusta luotiin jo 1800-luvulla. Varhaisia kehittäjiä olivat Grauntin, Laplacen ja Le Payn kaltaiset teoreetikot.

Hyvinvointikatsauksen kolmen edellisen numeron tilastohistoria-sarjassa tarkastelen muun muassa tilasto-organisaatioiden ja tilastollisen ajattelun syntyhistoriaa 1800-luvulla (Kuusela 2010a, 2010b ja 2011). Tilastotieteelle keskeisten otantatutkimusten varhaishistoria kuitenkin eroaa tilastoinnin historiasta monella tavalla, mutta niiden historiassa on myös joitakin yhteisiä piirteitä.

Tilastotoimen ja otantatutkimuksen yhteinen historia alkaa Norjan tilastoviraston pääjohtajan Anders Kiaerin tekemästä elinolotutkimuksesta, jossa hän sovelsi niin sanottua edustavaa menetelmää. Kiaerin menetelmä oli looginen jatko 1800-luvulla alkaneelle tilastotoimen laajenemiselle. Osittaistutkimuksia tehtiin kuitenkin jo ennen Kiaerin tutkimusta, vaikka niihin ei ole otantatutkimuksen historiassa kiinnitetty paljonkaan huomiota. Tässä artikkelissa tarkastelen näitä varhaisia osittaisaineistoihin pohjautuvia tutkimuksia.

Kyselytutkimuksia on tehty myös tilastoteoriaan tukeutumatta

Otantatutkimusten keskeiset ongelmat liittyvät tutkittavan aineiston valintaperusteisiin ja valintatavasta johtuviin päättelyongelmiin. Otantatutkimuksessa poimitaan tutkittavaksi vain osa siitä massasta eli perusjoukosta, josta ollaan kiinnostuneita, ja poimitun aineiston perusteella tehdään kokonaisuutta koskevia päätelmiä. Otantatutkimuksen alkuaikoina tällaisia tutkimuksia kutsuttiin osittaistutkimuksiksi.

Tämän kirjoituksen aiheena on tutkimustapa, jossa etukäteen määritellystä perusjoukosta poimitaan tarkasti määritelty näyte. Tämä rajaus on tärkeä, koska epämääräisestä perusjoukosta poimittuihin näytteisiin perustuvia tutkimuksia on tehty kautta aikojen. Todennäköisesti suurin osa empiirisestä tieteellisestä tutkimuksesta tehdään otantakysymyksiä liiemmin ajattelematta. Induktiivinen yleistäminen kuuluu ihmisluonteeseen: kokinkaan ei tarvitse syödä kattilaa tyhjäksi varmistaakseen että soppa on hyvää.

On tärkeätä tehdä ero kyselytutkimusten ja otantaan perustuvien tutkimusten välillä. Kyselyitä on tehty jo hyvin pitkään tarkemmin niiden perusteita miettimättä. Kyselytutkimusten historiaa ei ole dokumentoitu yhtä hyvin kuin osittaistutkimusten. Kyselytutkimuksiinkin usein liittyy yleistämisen ongelmia, vaikka sitä ei aina tajuta – eräitä kyselytutkimuksia saatetaan jopa luulla perusteettomasti kokonaistutkimuksiksi.

Muuan tunnettu esimerkki kyselytutkimuksesta on Sir John Sinclairin Skotlannissa vuonna 1790 tekemä selvitys (ks. Kuusela 2010a). Sinclair lähetti strukturoidun lomakekyselyn kaikille Skotlannin seurakunnille ja toimitti pappien vastausten perusteella ensimmäisen kattavan tilastollisen kuvauksen Skotlannista nimeltään Statistical Accounts of Scotland. Kyselyä ei siis lähetetty otokselle, vaan maan kaikille seurakunnille.

Englannissa tilastoseurat tekivät 1800-luvulla monia kyselytutkimuksia ilman varsinaista otantaa. Ensimmäinen ja kenties tunnetuin tutkimus koski Manchesterin työläisperheiden elinoloja (Heywood 1838). Tässäkin tutkimuksessa pyrittiin haastattelemaan kaikkia Manchesterin työläiskaupunginosan talouksia eli tutkimusta on pidettävä kokonaistutkimuksena.

Sivun alkuun

John Graunt oli otostutkimuksen uranuurtaja

Ensimmäisen dokumentoidun osittaistutkimuksen teki lontoolainen kauppias John Graunt 1660-luvulla (Graunt 1662). Tutkimuksen tekemiseen johti ärtymys siitä, että jotkut "tietävät miehet" väittivät Lontoossa olevan yli kaksi miljoonaa asukasta. Graunt päätti selvittää asian käyttäen hyväkseen Lontoon seurakuntien kuolleisuusilmoituksia (Bills of Mortality). Vuodesta 1570 lähtien Lontoon seurakuntien oli viikoittain julkaistava tiedot hautauksista, jotta ruttoepidemia havaittaisiin ajoissa. Näiden kuolleisuusilmoitusten sisältöä laajennettiin 1600-luvun alkupuolella kattamaan myös ristiäiset ja avioliitot. Tämä "tilasto" oli aikanaan pohjana, kun William Petty kehitti poliittisen aritmetiikan.

Graunt poimi otoksen seurakunnista ja laski, että Lontoossa oli keskimäärin 3 hautausta 11 perhettä kohden vuodessa. Koska Lontoossa vuoden aikana oli yhteensä 13 000 hautajaiset, Graunt päätteli, että perheitä oli suurin piirtein 48 000. Lisäksi hän arvioi, että keskimääräinen perhekoko oli 8 henkilöä. Sen perusteella Graunt arvioi Lontoon asukasluvuksi 384 000 (Graunt 1662). Arvioinnin keskeinen osa oli siis otos seurakunnista.

Grauntin menetelmä perustui intuitioon, mutta hän ilmeisesti ymmärsi, että siihen sisältyi virheen mahdollisuus. Niinpä hän arvioi väkiluvun myös muilla menetelmillä, muun muassa kaupungin kartan avulla. Siitä hän laski, montako korttelia Lontoossa oli ja montako asuntoa kortteleissa oli keskimäärin. Tästä hän päätteli, että Lontoossa oli noin 47 520 perhettä (Graunt 1662).

Sivun alkuun

Laplace kehitti otostutkimusta askelen eteenpäin

Toisen kerran osittaistutkimusta käytettiin dokumentoidusti vuonna 1802 Ranskan väkiluvun arvioimiseksi. Pierre Simon Laplace julkaisi suunnitelman väkiluvun arvioimiseksi jo vuonna 1783 (Laplace 1783), mutta suunnitelma pantiin toimeen vasta kaksikymmentä vuotta myöhemmin. Tänä aikana Laplacesta oli tullut arvostettu tiedemies, ja hänellä oli myös korkea asema Napoleonin hallinnossa. Yhtenä syynä tutkimuksen tekemiselle mainittiin vuoden 1801 väestölaskennan tulosten hidas valmistuminen ja se, että väestölaskennan tuloksiin ei täysin luotettu.

Myös Laplace perusti tutkimuksensa osittain seurakuntien kirjanpitoon syntymistä ja muista kirkollisista tapahtumista. Hän valitsi 30 departementtia siten, että Ranskan kaikki ilmastovyöhykkeet olivat edustettuina. Toinen kriteeri oli, että departementin pormestari kykeni toimittamaan luotettavia tietoja; valinta ei siis ollut satunnainen. Pormestarien piti nimittäin ilmoittaa departementin tarkka asukasmäärä tiettynä päivänä.

Syyskuun 22. päivänä vuonna 1802 valittujen departementtien yhteenlaskettu väestömäärä oli 2 037 615. Syntymistä Laplace otti satunnaisvaihtelun vähentämiseksi kolmen edeltävän vuoden keskiarvon, joka oli 71 866,3. Departementeissa oli siis 28,352845 asukasta jokaista syntynyttä lasta kohden. Laplacen arvion mukaan mainittuna päivänä Ranskassa asui 28 352 845 ihmistä kun oli tiedossa, että Ranskassa syntyi kutakuinkin miljoona lasta vuodessa.

Edellä kuvattu estimointimenetelmä ei poikkea olennaisesti Grauntin menetelmästä, mutta muuten Laplacen tutkimus oli erittäin merkittävä otostutkimusten historiassa. Ennen tiedonkeruuta Laplace laski, miten suuri otos oli poimittava, jotta saavutettaisiin estimoinnille ennalta asetettu tarkkuusvaatimus (Laplace 1783). Tätä varten hän arvioi otannasta johtuvan epävarmuuden, jota hän kuvasi "pelättäväksi virheeksi" (l'erreur á craindre). Laskennallisesti tämä suure oli lähellä nykyisin käytettyä estimaattien keskivirhettä. Sen avulla Laplace päätteli, että todennäköisyys oli 1:300 000 sille, että estimaatissa olisi yli puolen miljoonan virhe.

Sivun alkuun

Otosajatus herätti myös kritiikkiä

Adolphe Quetelet sovelsi ensimmäisenä Laplacen menetelmiä yhteiskunnallisiin ilmiöihin ja loi samalla empiirisen yhteiskuntatutkimuksen pohjan. Opiskellessaan Pariisissa 1820-luvulla Quetelet kuuli menetelmästä, jolla Laplace oli estimoinut Ranskan väkiluvun. Kotiin palattuaan hän halusi arvioida Belgian väkiluvun samalla menetelmällä.

Kun vaikutusvaltainen paroni de Keverberg kuuli Quetelet'n suunnitelmasta, hän esitti siitä hyvin kriittisen arvion (ks. Stigler 1986 tai Desrosiéres 1998). Paroni de Keverbergistä tiedetään varsin vähän. Stiglerin (1986) mukaan hän mitä ilmeisimmin toimi jonkinlaisen virallisena neuvonantajana Alankomaiden hallinnossa.

De Keverberg väitti, että ihmisten muodostama populaatio on niin heterogeeninen, että edustavaan otokseen tulisi käytännössä valita lähes kaikki sen jäsenet. Väestölaskenta olisi siis luotettavampi, ja suurin piirtein yhtä vaivalloinen kuin otostutkimus (De Keverberg 1827). Kritiikki oli niin vaikutusvaltaista, että Quetelet ei koskaan tehnyt osittaistutkimuksia.

De Keverberg siis väitti, että ihmispopulaatio on niin hetrogeeninen, ettei siitä voi poimia sellaista osajoukkoa, jonka perusteella induktiiviset yleistykset olisivat oikeutettuja.

Sivun alkuun

Monografiamenetelmässä tehdään yleistyksiä yksittäisten tapausten pohjalta

Osittain Quetelet'n ajatusten ja havaintojen pohjalta ranskalainen Frédéric Le Play kehitti niin sanotun monografiamenetelmän. Havainnoitaviksi valittiin esimerkiksi tyypillisiä työläistalouksia, ja kaikkien kyseiseen sosiaaliryhmään kuuluvien elinolojen ajateltiin olevan suurin piirtein tyyppiperheen kaltaisia.

Monografiat olivat osittaistutkimuksia. Niiden tulosten yleistys ei kuitenkaan perustunut mihinkään julkilausuttuun metodiikkaan, vaan melko lailla intuitiiviseen ajatteluun. Raporteissa ei niinkään kuvattu yhden (tai muutaman) perheen taloutta, vaan yleisemmin esimerkiksi työväenluokan elintapoja – ottamatta kantaa tietojen yleistettävyyteen. Osittain monografiatutkimusten ajatus oli lainattu minerologiasta (Le Play oli koulutukseltaan kaivosinsinööri), jossa yksittäisten näytteiden ajateltiin kuvaavan laajempaa kokonaisuutta. Ian Hacking (1990) kutsuu ajatusta mineralogiseksi yhteiskuntanäkemykseksi.

Monografiamenetelmä sai Kansainvälisen tilastoinstituutin ISIn virallisen hyväksynnän. Se oli 1800-luvun lopulla Euroopassa laajassa käytössä kotitalouksien taloudellisten olojen – kotitalousbudjettien – tutkimuksissa, ja joissakin maissa menetelmällä ilmeisesti selvitettiin tyyppitalouksien oloja enemmänkin.

Menetelmää käytettiin erityisen runsaasti Ranskassa ja Venäjällä, ja näissä maissa sitä myös kehitettiin innokkaasti. Esimerkiksi venäläisen A. A. Tchuprovin kirjoittamassa tilastotieteen oppikirjassa monografiamenetelmän käsittelyyn käytettiin lähes puolet sivuista (Tchuprov 1910). Tchuprov kehitti erityisesti kotitalouksien valintaperusteita, jotta saataisiin yleistettäviä tuloksia.

Sivun alkuun

Poliittisten gallupien tulokset testataan vaaleissa

Mielipidetutkimusten alkuajoilta löytyy myös kiinnostava esimerkki osittaistutkimuksista. Jo 1800-luvun alkupuolella muutamat yhdysvaltalaiset sanomalehdet alkoivat vaalien alla luodata yleistä mielipidettä niin kutsutulla straw poll -menetelmällä. Sen ideana oli yksinkertaisesti se, että toimittajat kyselivät kadunmiehiltä, keitä nämä aikoivat äänestää. Menetelmän nimityksen taustalla on mielikuva siitä, että kuivia olkia heitetään ilmaan tuulen suunnan selvittämiseksi.

George Gallupin (1976) mukaan ensimmäisenä tällaisen selvityksen teki The Harrisburg Pennsylvanian -lehti vuonna 1824. Vuonna 1883 sanomalehti Boston Globe kehitti menetelmän, joka oli lähellä nykyistä ovensuukyselyä: vaalipaikalta poistuneilta kysyttiin ketä he olivat äänestäneet (Gallup 1976).

Vaikka edellä kuvatut menetelmät ovat alkeellisia eikä niillä ole tieteellistä pohjaa, ne kuitenkin sisältävät osittaistutkimuksen keskeisen idean: pienen joukon tiedot yleistetään koskemaan suurempaa joukkoa. Kumpikin menetelmä on säilyttänyt asemansa median työkaluna Yhdysvalloissa – eivätkä ne aivan tuntemattomia ole Suomessakaan. Nämä menetelmät ovat myös vaikuttaneet siihen, että osittaistutkimukset on hyväksytty suuren yleisön keskuudessa.

Vaaliennusteilla on muista osittaistutkimuksista poikkeava piirre: niiden tulos testataan vaaleissa. Koska ensimmäinen straw poll ennusti oikein presidentin vaalien voittajan, alettiin uskoa menetelmän tuottavan luotettavaa tietoa.

Yhteiskunnallisia otantatutkimuksia ei tehty 1800-luvulla, mutta maataloustutkimuksissa otannan käyttö oli 1800-luvun puolivälistä lähtien suhteellisen yleistä niin Euroopassa, Yhdysvalloissa kuin Venäjälläkin. Syynä on se, että maataloustutkimusten perusjoukko on homogeenisempi ja helpommin hallittavissa kuin yhteiskuntailmiöt. Vaaligallupien tapaan näissä tutkimuksissa otosten perusteella tehtyjä arvioita voitiin verrata lopputulokseen eli viljasatoon.

Maataloustutkimukset olivat esimerkkeinä, kun Norjan tilastoviraston johtaja Anders Kiaer kehitti edustavan menetelmänsä. Hän esitteli menetelmän Kansainvälisen tilastoinstituutin kokouksessa Bernissä vuonna 1895 (Kiaer 1895). Tästä esitelmästä katsotaan yleisesti alkaneen sen kehityksen, joka aikanaan synnytti surveytutkimusten otantateorian. Se ei tapahtunut hetkessä eikä ilman vastustusta. Usko yhteiskunnallisten otostutkimusten käyttökelpoisuuteen alkoi viritä vasta 1900-luvun alkupuolella.

Lähteet:

Desrosirés, A. 1998. The Politics of Large Numbers. A History of Statistical Reasoning. Harvard Univeristy Press.
Gallup, G. 1976. The Sophisticated Poll Watcher's Guide. Science Press, Ephrata.
Graunt, J. 1662. Natural and Political Observations upon the Bills of Mortality. John Martyn, London.
Hacking, I. 1990. The Taming of Chance. Cambridge University Press, Cambridge.
Heywood, J. 1838. Report of an Inquiry, conducted from House to House, into the State of 176 families in Miles Platting, within the borough of Manchester, in 1837. Journal of the Statistical Society of London 1.
Keverberg, Baron de 1827. Notes sur Quetelet. Nouveaux Mémoires de l'Academie royal des sciences et belles-lettres de Bruxelles 4.
Kuusela, V. 2010a. Tilastonteko on yhtä vanhaa perua kuin kirjoitustaito. Hyvinvointikatsaus 3/2010.
Kuusela, V. 2010b. Ensimmäiset merkittävät tilasto-organisaatiot syntyivät 1800-luvulla. Hyvinvointikatsaus 4/2010.
Kuusela, V. 2011. Keskiarvo auttaa ymmärtämään yhteiskunnallisten ilmiöiden säännönmukaisuuksia. Hyvinvointikatsaus 1/2011.
Kiaer, A. N. 1895. Observations et expériences concernant des dénombrements représentatives. Bulletin of the International Statistical Institute 9.
Laplace, P. S. 1783. Sur les naissances, les mariages et les morts. Mémoires de l'Académie Royale des Sciences de Paris.
Stigler, S. 1986. The History of statistics. The Measurement of Uncertainty before 1900. The Belknap Press of Harvard University Press, Cambridge.
Tchuprov, A. A. 1910. Otcherki po Teorii Statistiki ["Kirjoitelmia tilastotieteen teoriasta"]. M. i S. Sabasnikovyh, St. Petersburg.

Hyvinvointikatsauksen artikkeleita ja muita kirjoituksia saa siteerata lähde mainiten. Kokonaisen kirjoituksen lainaamiseen tulee saada kirjoittajan lupa. Kirjoittajat kirjoittavat omissa eivätkä Tilastokeskuksen nimissä.


Päivitetty 26.9.2011