Hakukone tilastotiedon lähteenä

Kattava luettelo tärkeimmistä hakukonepohjaisista palveluista löytyy esimerkiksi Tampereen teknillisen yliopiston kirjaston sivulta.

Internetin hakukonepohjaisissa tiedonhakupalveluissa on kyseessä sanahakupalveluista, joiden avulla käyttäjä voi hakea tietoja/viitteitä haluamastaan aiheesta. Palvelu muodostuu kolmesta osasta:

Hakurobotti

Hakurobotti (spider, crawler, robot, bot) on tietokoneohjelma, joka hakee Internetin maailmanlaajuisesti sijaitsevissa palvelimissa olevia sivuja, ja indeksoi eli tallentaa niistä tiettyjä tietoja tietokantaan. Indeksointitapa riippuu hakurobotista. Toiset robotit indeksoivat koko tekstin, toiset otsikon ja muutaman lauseen alusta tai dokumentissa olevat URL-osoitteet.

Monet robotit indeksoivat myös verkkodokumentin metatiedot ja muita piilotekstejä. Metatietojen eli verkkodokumenttien kuvailua varten on olemassa omia tallennusalustoja (formaatteja), joista käytetyin on kansainvälinen Dublin Core -metadataformaatti. Suomessa sitä ylläpitää Helsingin yliopiston kirjasto. Tiedonhaun kannalta verkkodokumentin metatiedot ovat oivallinen asia. Niiden avulla päästään parempiin ja täsmällisempiin tiedonhakuihin.

Piilotekstien osalta voidaan olla montaa mieltä: piiloteksti on näkymätöntä tekstiä, jossa usein vain turhanpäiten toistetaan suosittuja, sisältöön löyhästi kuuluvia hakusanoja.

Tietokanta

Robottien keräämät tiedot viedään tietokantaan tai päivitetään jo olemassa oleva tietokanta, josta tiedonetsijät voivat sitten tehdä hakuja. Osa roboteista käy palvelimia läpi maailmanlaajuisesti, osa keskittyy vain tietyn maan sivuihin.

Hakukone

Hakukone on käyttöliittymä, jonka kautta käyttäjä syöttää hakulauseensa ja saa tulokseksi listan viitteitä, jotka vastaavat käyttäjän hakulausetta. Hakukone järjestää tulokset relevanssijärjestykseen käyttämiensä kriteerien mukaan, esim. sen mukaan:

Hakukonepohjaisia tiedonhakupalveluja on helppo käyttää, mutta turhan usein hakutuloksena on epärelevanttia, huonolaatuista ja suodattamatonta informaatiota. Ongelma on myös se, että useimmat, käytetyimmätkin hakupalvelut (Altavista, Google ym.) löytävät vain osan kaikista olemassa olevista www-sivuista. Joidenkin arvioiden mukaan puolet verkosta jää piiloon. Internet jakaantuu "näkyvään" ja "näkymättömään" osaan sen mukaan, löytääkö sivuille hakukoneella. Näkymättömään osaan jää mm.

Hakukonepohjaiset tiedonhakupalvelut ovat oiva apuneuvo silloin kun:

Selattava versio