Hakukone tilastotiedon lähteenä

Kattava luettelo tärkeimmistä hakukonepohjaisista palveluista löytyy esimerkiksi Tampereen teknillisen yliopiston kirjaston sivulta.

Internetin hakukonepohjaisissa tiedonhakupalveluissa on kyseessä sanahakupalveluista, joiden avulla käyttäjä voi hakea tietoja/viitteitä haluamastaan aiheesta. Palvelu muodostuu kolmesta osasta:

  • hakurobotti
  • tietokanta
  • hakukone

Hakurobotti

Hakurobotti (spider, crawler, robot, bot) on tietokoneohjelma, joka hakee Internetin maailmanlaajuisesti sijaitsevissa palvelimissa olevia sivuja, ja indeksoi eli tallentaa niistä tiettyjä tietoja tietokantaan. Indeksointitapa riippuu hakurobotista. Toiset robotit indeksoivat koko tekstin, toiset otsikon ja muutaman lauseen alusta tai dokumentissa olevat URL-osoitteet.

Monet robotit indeksoivat myös verkkodokumentin metatiedot ja muita piilotekstejä. Metatietojen eli verkkodokumenttien kuvailua varten on olemassa omia tallennusalustoja (formaatteja), joista käytetyin on kansainvälinen Dublin Core -metadataformaatti. Suomessa sitä ylläpitää Helsingin yliopiston kirjasto. Tiedonhaun kannalta verkkodokumentin metatiedot ovat oivallinen asia. Niiden avulla päästään parempiin ja täsmällisempiin tiedonhakuihin.

Piilotekstien osalta voidaan olla montaa mieltä: piiloteksti on näkymätöntä tekstiä, jossa usein vain turhanpäiten toistetaan suosittuja, sisältöön löyhästi kuuluvia hakusanoja.

Tietokanta

Robottien keräämät tiedot viedään tietokantaan tai päivitetään jo olemassa oleva tietokanta, josta tiedonetsijät voivat sitten tehdä hakuja. Osa roboteista käy palvelimia läpi maailmanlaajuisesti, osa keskittyy vain tietyn maan sivuihin.

Hakukone

Hakukone on käyttöliittymä, jonka kautta käyttäjä syöttää hakulauseensa ja saa tulokseksi listan viitteitä, jotka vastaavat käyttäjän hakulausetta. Hakukone järjestää tulokset relevanssijärjestykseen käyttämiensä kriteerien mukaan, esim. sen mukaan:

  • kuinka usein hakusana esiintyy www-sivulla
  • missä kohtaa sivua hakusana on
  • kuinka paljon linkkejä sivulle kohdistuu muualta

Hakukonepohjaisia tiedonhakupalveluja on helppo käyttää, mutta turhan usein hakutuloksena on epärelevanttia, huonolaatuista ja suodattamatonta informaatiota. Ongelma on myös se, että useimmat, käytetyimmätkin hakupalvelut (Altavista, Google ym.) löytävät vain osan kaikista olemassa olevista www-sivuista. Joidenkin arvioiden mukaan puolet verkosta jää piiloon. Internet jakaantuu "näkyvään" ja "näkymättömään" osaan sen mukaan, löytääkö sivuille hakukoneella. Näkymättömään osaan jää mm.

  • tietyillä tiedostoformaateilla toteutetut sivut (esim. pdf)
  • verkossa olevat tietokannat, joiden tiedonhakua hakukoneet eivät pysty käynnistämään
  • dynaamisesti luodut sivustot (cgi, javascript, asp)
  • tosiaikaista tietoa sisältävät sivut kuten pörssikurssit, lentoaikataulut jne.

Hakukonepohjaiset tiedonhakupalvelut ovat oiva apuneuvo silloin kun:

  • etsittävä aihe on tuttu, jolloin hakulauseke voidaan muotoilla tarkasti
  • haetaan tarkasti määriteltyä dokumenttia tai dokumenttia, jossa esiintyy tietty merkkijono, esim. henkilön tai paikan nimi

Tulostettava versio