Etusivu > Artikkelit > Lomaketestaus parantaa kansainvälisten tutkimusten vertailtavuutta

Lomaketestaus parantaa kansainvälisten tutkimusten vertailtavuutta

Tiedonkeruulomakkeiden harmonisointi
Harmonisoinnin vaikeuden esimerkkinä terveyskysymykset
Ongelmat erilaisia ja samanlaisia
Input- ja output-harmonisointi tuottavat erilaiset mittarit
Minkälaista vertailevan testauksen tulisi olla?
Myös haastattelutyön laatu on tärkeä
Vertailun parantamiseksi on keinoja

Harmonisoinnin vaikeuden esimerkkinä terveyskysymykset

Eurostat on suunnitellut jo vuosia laajaa terveystutkimusta. Tutkimus sisältää neljä niin sanottua kysymysmoduulia ja yhteensä 250 kysymystä, jotka on yhdenmukaistettu input-harmonisoinnilla. SurveyLaboratorio testasi ensimmäisen moduulin (The European Health Status Module, EHSM) suomenkielisen osuuden (Ahola ym. 2005). Lähtökohtana käännös- ja testaustyölle oli terveystutkijoiden kehittämä englanninkielinen lomake, johon oli koottu kansainvälisesti yleisesti käytettyjä kysymyksiä. Käännösprosessin varmistamiseksi kullekin kysymykselle oli tuotettu käsitekortit, joissa kerrottiin kysymyksen tarkoitus ja perustelut. Kääntämisen tuli tapahtua näitä käsitekortteja käyttäen. Vaatimuksena oli, että sekä kääntämisen että käännöksen tarkistamisen tekevät kaksikieliset terveystutkijat.

Useissa Euroopan maissa tehtiin vastaavia kognitiivisia testauksia. ESRA 2007 -konferenssissa (European Survey Research Associaton) esiteltiin Espanjan kognitiivisten testausten tuloksia (Padilla 2007). Vertailen espanjalaisten ja suomalaisten vastaamisprosessia koskevia tuloksia niin sanotun Miniterveysmoduulin kolmessa kysymyksessä. Nämä kolme kysymystä muodostavat keskeisen terveystilastoinnin osion, joka pyritään siirtämään samassa muodossa muihinkin EU-tiedonkeruisiin. (Taulukko 1.)

Taulukko 1. Miniterveys-moduuliin vastaamisen ongelmat Espanjassa ja Suomessa.

Kysymys lähdekielellä:

1. How is your health in general: Is it very good, good, neither good nor bad, bad or very bad?
Espanjankielinen testaus:	Suomenkielinen testaus:
- Ajattelee nykyistä terveydentilaansa eikä terveyttään yleensä.	- Toiset arvioivat useiden vuosien ajalta, toiset viimeisen 6 kuukauden ajalta.
- Ajattelee tilapäisiä ongelmia.	- Toiset ottivat huomioon sosiaalisen ja psyykkisen terveyden, toiset vain fyysisen.
- Vaihtoehto "ei hyvä eikä huono".	- Toiset pitivät hyvänä tilaa, jossa sairaus on kurissa lääkehoidolla, toiset eivät.
	- Toiset alensivat arviota terveyskäyttäytymisensä, esim. tupakoinnin perusteella, toiset eivät.
2. Do you have any longstanding illness or health problem? Yes/No
Espanjankielinen testaus:	Suomenkielinen testaus:
- Ajattelee tilapäisiä ongelmia.	- Kuinka pitkäaikainen on "pitkäaikainen?"
- Avainsanan "pitkäaikainen" ymmärtäminen.	- Todettu pitkäaikaissairaus, joka ei vaivaa / pysyy kurissa lääkkeillä.

3. For at least the past 6 months to what extent have you been limited because of a health problem in activities people usually do? Would you say you have been severely limited, limited but not severely or not limited at all?
Espanjankielinen testaus:	Suomenkielinen testaus:
- Ilmaisu "toiminnat mitä ihmiset tavallisesti tekevät".	- "Toimet, joita ihmiset tavallisesti tekevät" (ei tiedetä mitä muut tekevät).
- Avainsanan "limited" ymmärtäminen ja vastausvaihtoehto "rajoittaa mutta ei vakavasti."	- Vaihtoehtojen "rajoittaa vakavasti" ja "rajoittaa, mutta ei vakavasti" ero.
- Ajattelee tilapäisiä rajoituksia.	- Kysymyksen viiteaika epäselvä - pitääkö kestää koko 6 kuukauden ajan?

Verrattavat kysymykset ovat:

1. Yleisesti ottaen millainen terveytenne on? Onko se erittäin hyvä, hyvä, keskinkertainen, huono vai erittäin huono? (How is your health in general? Is it very good, good, neither good nor bad, bad or very bad?)

2. Onko teillä jokin pitkäaikainen sairaus tai terveysongelma? Kyllä/Ei. (Do you have any longstanding illness or health problem? Yes/No)

3. Onko teillä ollut ainakin viimeksi kuluneet puoli vuotta terveysongelmien takia rajoituksia sellaisissa toimissa, joita ihmiset tavallisesti tekevät? Onko teillä ollut vakavia rajoituksia; ollut rajoituksia, mutta ei vakavia; ei ole ollut lainkaan rajoituksia (For at least the past 6 months to what extent have you been limited because of a health problem in activities people usually do? Would you say you have been severely limited, limited but not severely or not limited at all?)

Ongelmat erilaisia ja samanlaisia

Yhteisenä ongelmana ensimmäiseen kysymykseen vastaamisessa sekä espanjalaisille että suomalaisille haastateltaville näytti olevan viiteajanjakson epäselvyys. Suomessa vastausskaalan keskimmäistä vaihtoehtoa ("neither good nor bad") ei koettu hankalaksi, koska sitä ei käännetty kirjaimellisesti ("ei hyvä eikä huono") vaan "keskinkertaiseksi". Suomalaiset pitivät ongelmana sitä, kuinka heidän tulisi vastata, jos heillä on todettu pitkäaikaissairaus, joka ei heitä kuitenkaan haittaa. Espanjalaisten vastauksista tätä ongelmaa ei havaittu. Suomalaisissa kognitiivisissa haastatteluissa tuli esille myös muita ajatteluprosessien eroja (taulukko 1). Mutta ovatko erot ongelmia, koska kysymyksellä haetaan ihmisen omaa kokonaisarviota terveydentilastaan? Tähän kysymykseen käsitekortti ei valitettavasti vastaa.

Toiseen kysymykseen vastaamisessa viiteajanjakson epäselvyys tuli esille molemmissa maissa. Suomalaisten ongelmana tässäkin kysymyksessä oli, kuinka pitäisi vastata, jos sairauden oireet pysyvät kurissa lääkehoidolla. Kolmanteen kysymykseen vastaamisessa suomalaisten ja espanjalaisten ongelmat vastasivat hyvin toisiaan. Kaiken kaikkiaan vastaamisen ongelmat Miniterveysmoduuliin Espanjassa ja Suomessa olivat siis pitkälti samoja. Suomessa vastaamisen kannalta hankalia olivat sairaudet, jotka pysyvät kurissa lääkkeillä.

Input- ja output-harmonisointi tuottavat erilaiset mittarit

Terveyssurveyn suunnitteluvaiheessa oli kuitenkin meneillään jo Eurooppalainen tulo- ja elinolotutkimus (EU-SILC), jossa oli myös tarkoitus selvittää Miniterveysmoduulin tiedot. EU-SILC-tutkimuksen kysymysten suunnittelu perustui kuitenkin output-harmonisointiin, jolloin vain tavoitemuuttujat on määritelty ja tilastotutkijat muotoilevat itse kysymykset niiden pohjalta. Vaikka terveyskysymysten mittauksen tavoitteet näissä molemmissa lomaketutkimuksissa olivat samoja, laadittujen kysymysten sanamuodot vaihtelivat eri maissa (Davidsson 2007, 88). Eurooppalaisen terveyssurveyn suunnitteluryhmään kuuluneen Davidssonin mukaan joissakin maissa EU-SILC-tutkimuksen sanamuodot olivat identtiset terveyssurveyn kanssa, toisissa ne erosivat vähän ja joissakin taas huomattavasti terveyssurveyn input-harmonisoiduista kysymyksistä.

Arvioin Eurostatin pyynnöstä kolmen edellä mainitun suomenkielisen Miniterveysmoduulin vertailtavuutta EU-SILC-lomakkeen kysymysten kanssa (Ahola 2006). Vertasin EU-SILC-lomakkeen kysymyksiä EHSM-hankkeessa toteutettuun niin sanottuun pilot-tutkimukseen. Tutkimus toteutettiin pienoiskoossa otokselle, joka koostui 30 vuotta täyttäneistä suomalaisista. Esittelen tässä esimerkkinä moduulin ensimmäisen kysymyksen vertailun. Kysymyksen mittaama koettu terveys on yleisimmin käytetty indikaattori terveyserojen kansainvälisessä tilastoinnissa.

Vaikka pilot-testauksen otos oli pieni, vertailu antaa viitteitä siitä, kuinka näennäisesti pienet erot surveykysymysten sanamuodoissa voivat tuottaa suuret erot vastausjakaumiin ja sitä kautta väestön terveystason osoittimiin (taulukko 2). EHSM:n käsitekorteissa korostettiin, että halutaan tietää terveydestä yleensä eikä nykyisestä terveydentilasta. Suomenkielisessä EU-SILC-lomakkeessa kysyttiin nykyistä terveydentilaa. Eniten vastausjakauman eroihin vaikuttivat oletettavasti kuitenkin vastausvaihtoehtojen erot. Vaikka mukana on samansisältöisiä vaihtoehtoja, vastaaja ei reagoi yksittäisen vaihtoehdon sanamuotoon, vaan koko vastausskaalaan. Esimerkiksi keskinkertaiseksi määritteli terveytensä EHSM-pilotin haastattelussa 36 prosenttia ja EU-SILC-haastattelussa 24 prosenttia vastanneista. Vastaaja ottaa vastatessaan huomioon kysyjän tarkoitukset, joiden päättelyyn hän käyttää koko vastausskaalaa (vrt. Schwarz 1999). Sittemmin myös suomenkielisen EU-SILC-terveyskysymysten muotoilut on muutettu vastaamaan tulevan eurooppalaisen terveyssurveyn muotoiluja.

Taulukko 2. Vastausjakaumat (30 vuotta täyttäneiden) itsearvioitua terveydentilaa mittaavaan kysymykseen EU-SILC- ja EHSM pilot -tiedonkeruissa vuonna 2005.

EU-SILC (n = 8 944)	%	EHSM (n = 161)	%
Onko yleinen terveydentilanne nykyisin mielestänne:		Yleisesti ottaen millainen terveytenne on? Onko se:
Hyvä	36,2	Erittäin hyvä	14,3
Melko hyvä	25,2	Hyvä	42,9
Keskinkertainen	23,9	Keskinkertainen	36,0
Melko huono	8,3	Huono	6,2
Huono	3,3	Erittäin huono	0
Tieto puuttuu	3,1	Ei osaa sanoa	0,6
Yhteensä	100,0	Yhteensä	100,0
Vertailtujen aineistojen keruumenetelmät vastasivat hyvin toisiaan. Molemmat tietojenkeruut tehtiin puhelinhaastatteluina. Molemmat haastattelut tehtiin vuoden 2005 alku- tai keskivaiheilla.

Lähde: Ahola 2006

Minkälaista vertailevan testauksen tulisi olla?

Kognitiivinen testaaminen on jatkuvasti laajenemassa Euroopan tilastojärjestelmään kuuluvien tilastojen laadun kehittämisessä. Tähän mennessä on kuitenkin melko vähän keskusteltu siitä, kuinka kansainvälisen vertailun erityistarpeet tulisi ottaa huomioon testausten soveltamisessa. Kesäkuun ESRA 2007 -konferenssissa (European Survey Research Associaton) käsiteltiin laajalti kansainvälistä vertailua.

Kristen Miller (2007) alusti kognitiivisen testauksen mahdollisuuksista vertailtavuuden ongelmien löytämisessä. Vertailevan kognitiivisen testauksen tutkimuskysymykset ovat:

Tulkitsevatko eri maiden väestöryhmät kysymykset eri tavoin tai käyttävätkö he erilaisia tapoja muistaa ja harkita vastaustaan?
Mistä erot johtuvat?
Kuinka eroja tulisi käsitellä?

Koska kognitiivisella haastattelulla tutkitaan ajatteluprosesseja, joilla haastateltava vastaa lomakekysymykseen ja tulkitsee kysymystä, menetelmältä on Millerin mukaan lupa odottaa paljon kulttuurienvälisessä vertailussa. Hän käsitteli esimerkkinä epäonnistuneesta yrityksestä niin sanotun Budapest-aloitteen pohjalta toteutettua terveyskysymysten vertailevaa testaushanketta, jonka tilaajina olivat UNESCO, WHO ja Eurostatin. Hankkeeseen osallistuivat Yhdysvallat, Kanada, Italia ja Australia.

Vertailun ongelmat johtuivat maiden käyttämistä erilaisista otoksista, eri tavoin toteutetuista käännöksistä ja kognitiivisista haastatteluista. Kyse oli myös niiden toteuttajien vaihtelevista taidoista, erilaisista käsityksistä siitä, mikä on löydös, sekä aineistojen eri tyyppisestä analyysista. Ongelmien seurauksena maiden välisten erojen syitä ei voitu tulkita, jolloin vertailevan tutkimuksen tavoite jäi saavuttamatta. Ratkaisuina seuraavaa kierrosta varten hän esitti otannan, kääntämisen, haastattelumenetelmien, tulosten analyysin ja dokumentoinnin parempaa yhdenmukaistamista ja hankkeen koordinointia.

Myös haastattelutyön laatu on tärkeä

Gordon Willis (2007) käsitteli vertailevaa testausta käytännönläheisesti esittäen tuloksia kielen ja kulttuurin tuottamista eroista vastausjakaumiin ja kuinka niitä voidaan välttää. Ensinnäkin Willisin mukaan on sovellettava lomakkeen hyviä suunnitteluperiaatteita. Suunnittelua on täydennettävä asiantuntijaraadin menetelmällä (Expert Panel), jossa kaksikieliset arvioijat tekevät lomakeluonnoksen systemaattisen analyysin.

Sen jälkeen on empiiristen testausten vuoro. Willis pitää tärkeimpinä empiirisen lomaketestauksen menetelminä kognitiivisia haastatteluja ja haastatteluvuorovaikutuksen koodausta (Behavior Coding). Hän pohti, kuinka niitä pitäisi soveltaa kulttuurien välisissä lomaketutkimuksissa. Hän käytti Yhdysvalloissa asuvan espanjankielisen latinoväestön sekä muun englanninkielisen väestön ruokailutottumusten vertailua esimerkkinä kognitiivisten haastattelujen soveltamisen hyödyllisyydestä. Esimerkiksi kysymykseen "Söittekö aamiaista eilen?" latinoista myönteisesti vastasi 6,5, ja muista kuin latinoista koostuvassa väestössä 67,7 prosenttia. Toisistaan poikkeavia vastausjakaumia ja niiden syitä voitiin ymmärtää vain kvalitatiivisen vastaamisprosessia kuvaavan tiedon avulla. Sen mukaan suuri osa latinoista oli säilyttänyt meksikolaiset ruokailutavat eikä noudattanut pohjoisamerikkalaista tapaa jäsentää ateriat aamiaiseksi, lounaaksi ja päivälliseksi.

Toinen vertailevalle testaukselle tärkeä menetelmä haastattelututkimuksissa on Willisin mukaan haastatteluvuorovaikutuksen koodaus, jossa haastattelijan ja haastateltavien toiminta analysoidaan systemaattista luokitusta käyttäen. Ensinnäkin tutkitaan, lukeeko haastattelija kysymykset lomakkeella olevassa muodossa ja toiseksi tutkitaan haastateltavan henkilön vastaamisprosessia. Hän esitti esimerkin Kalifornian terveyshaastattelujen analyysistä, jossa vuorovaikutuksen koodaus tehtiin viiden kulttuuri- tai kielitaustaltaan erilaisen ryhmän puhelinhaastatteluille (muut kuin latinot englanniksi, latinot englanniksi, latinot espanjaksi, korealaiset englanniksi, korealaiset koreaksi).

Tulosten mukaan kääntämisen eroja ja kulttuurisia ryhmien välisiä eroja esiintyi. Joidenkin kysymysten tarkoituksen epämääräisyys tuli esille kaikille kieliryhmille yhteisenä ongelmana. Kysymysten esittämistavassa oli ryhmien välisiä eroja. Kolmessa ryhmässä käytettiin riittävän hyvin lomakkeen muotoilua, kahdessa ryhmässä sen sijaan esiintyi selkeitä poikkeamia lomakkeen sanamuodoista. Esimerkiksi koreankielellä tehdyissä haastatteluissa niitä esiintyi 29 prosentissa kysymyksiä. Willisin mukaan haastattelutyön johtamisen ongelmat voivatkin muodostua vertailtavuuden pääongelmaksi.

Vertailun parantamiseksi on keinoja

Vertailun ongelmien välttämiseksi Willis esittää seuraavia keinoja:

On varmistettava käännös: on käytettävä monia kääntäjiä ja käännöksen arvioijia.
On toteutettava pienimuotoisia esitestauksia vertailtavissa väestöryhmissä.
On seurattava kenttähaastattelujen toteuttamista.
On kehitettävä lomakkeen suunnitteluperiaatteita:
-- On käytettävä mieluummin yksityiskohtaisia tai konkreettisia muotoiluja kuin yleisiä tai
abstrakteja (esimerkiksi "lyönti päähän" on kysymyksessä parempi ilmaus kuin "kidutus").
-- On vältettävä luokitteluja, jotka sisältävät monia toisiaan lähellä olevia vastausvaihtoehtoja, koska niiden kääntäminen siten, että vaihtoehtojen merkitykset vastaavat toisiaan, on vaikeata. On tutkimustuloksia, joiden mukaan verbalisoidut skaala-arvot ja niiden etäisyys toisistaan ovat vahvasti riippuvaisia kulttuurista (Mohler ym. 1998)

Euroopan tilastojärjestelmään kuuluvien tilastojen kehittämiseksi laaditut suositukset vastaavat melko hyvin Willisin vertailtavuuden parantamiseksi esittämiä keinoja. Euroopan unionissa kuitenkin vertailun ongelmat ovat suurempia kuin Yhdysvalloissa, koska arvojen lisäksi lait, instituutiot ja normit ovat erilaisia eri Euroopan maissa. (Handbook of... 2006, 67-68). Eurostatin rahoituksella toteutetut käännös- ja testaushankkeet on tähän mennessä tehty erillisinä kussakin maassa, jolloin eri maiden tuloksia on ollut vaikea verrata. Kognitiivinen testaaminen voisi tuottaa kiinnostavampia tuloksia, jos myös kysymyksiin vastaamisen prosesseja voisi verrata. Silloin olisi mahdollista tehdä luotettavia johtopäätöksiä myös maiden välisistä eroista ja yhtäläisyyksistä kysymysten tulkinnassa ja erojen syistä.

Lähteet:

Ahola, A.(2006): Minimum Health Status in SILC - harmonisation of questions with EHSM - Finnish version. Muistio 9.2.2006. Tilastokeskus, Helsinki. (Julkaisematon.)
Ahola, A. - Kallio-Peltoniemi, M. (2005): Implementation of the European Core Module on Health status. Final Report on testing. Statistics Finland/SurveyLaboratory. Eurostat Contract no 2004 35100 13. (Julkaisematon.)
Davidsson, G. (2007): Harmonization of the Minimum Health Module in the European Health Interview Survey (EHIS). Julkaisussa Quest 2007. Proceedings. Statistics Canada. Ottawa, Ontario. Canada. 24.-26.4.2007, 88-94.
Draft Report of the Results of the Cognitive Tests of the European Health Status Module.(Spanish Version). National Institute for Statistics and University of Granada. June 2006. (Julkaisematon.)
Handbook of Recommended Practices for Questionnaire Development and Testing in the European Statistical System(2006). http://epp.eurostat.ec.europa.eu/pls/portal/docs/PAGE/PGP_DS_QUALITY/TAB47143266/RPSQDET27062006.PDF
Jowell, R. - Roberts C. - Fitzgerald R. - Eva G.(toim.) (2007): Measuring Attitudes Cross-Nationally. Lessons from the European Social Survey. SAGE Publications, London.
Melin, H. (2005): Vertailevan tutkimuksen monet lähtökohdat. Teoksessa Räsänen P., Anttila A.-H. - Melin H. (toim.): Tutkimus menetelmien pyörteissä. Sosiaalitutkimuksen lähtökohdat ja valinnat. PS-kustannus, Juva.
Miller, K. (2007): Design and Analysis of Cognitive Interviews for Cross-National Testing. Esitys Comparative Pretesting -ryhmässä ESRA 2007 -konferenssissa. Praha 25.6.-29.6.2007.
Mohler, P. Ph. - Smith, T.W. - Harkness, J.A.(1998): Respondents' Ratings of Expressions from Response Scales: A Two-Country, Two-Language Investigation on Equivalence and Translation. ZUMA-Nachrichten Spezial, 3, 159-184.
Padilla, J.-L. (2007): The use of cognitive interviews to assess construct overlap in cross-cultural surveys. Esitys Comparative Pretesting -ryhmässä ESRA 2007 -konferenssissa. Praha 25.6.-28.6.2007.
Schwarz, N. (1999): Self-Reports. How the Questions Shape the Answers. American Psychiologist. February. Vol. 54, No 2, 93-105.
Willis, G.(2007): Overview of Cross-Cultural Pretesting: What are we Trying to Accomplish? Esitys Comparative Pretesting -ryhmässä ESRA 2007 -konferenssissa. Praha 25.6.-29.6.2007.

Hyvinvointikatsauksen artikkeleita ja muita kirjoituksia saa siteerata lähde mainiten. Kokonaisen kirjoituksen lainaamiseen tulee saada kirjoittajan lupa. Kirjoittajat kirjoittavat omissa eivätkä Tilastokeskuksen nimissä.

Päivitetty 18.12.2007

Jaa