Tämän vuoksi Googlea on mahdoton haastaa hakukoneena

Petteri Pyyny

29. December, 2020 17:35

Googlen hakukoneen markkinaosuus on Suomessa aivan käsittämätön, joidenkin lähteiden mukaan jopa 97 prosenttia. Mutta miksi kilpailevia hakukoneita ei ole syntynyt?

Harva tavallinen netinkäyttäjä tietää edes muita hakukoneita kuin Googlen, eli siitä on tullut käytännössä synonyymi hakukoneille. Nekin, jotka vaihtoehdoista tietävät, osaavat luetella lähinnä Bingin ja kenties myös DuckDuckGon.

Näistäkin kahdesta kilpailijasta DuckDuckGo käyttää itse asiassa Bingin hakukonetta pohjalla, eikä sillä ole lainkaan omaa hakuindeksiä.

Mutta miksi kilpailijoita ei ole, hakuhan on kuitenkin huikean hyvä bisnes Googlelle?

Käytännössä syitä on kaksi: raha ja näkyvyys.

Näkyvyyden osalta Google on jo joutumassa pulaan, johtuen sen hakukoneen ja Androidin pakkoavioliitosta. Voidaan jossitella paljonkin sen osalta, miltä maailma näyttäisi, jos vaikkapa kaikkien Samsungin toimittamien miljoonien ja miljoonien Android-puhelinten hakukoneena olisikin Microsoftin omistama Bing. Nyt sekä EU että Yhdysvallat ovat aloittaneet tutkintaa siitä, käyttääkö Google määräävää markkina-asemaansa väärin pakottaessaan oman hakukoneensa kiinteästi Androidin osaksi.

Toinen, harvemmin esille nostettu seikka on raha.

Ohjelmointitaitoa kilpailevan hakukoneen luomiseksi todennäköisesti löytyisi Googlen ulkopuoleltakin, vaikkakin alan huiput eivät varmasti niitä halvimpia työntekijöitä olekaan. Mutta se, mitä haetaan, on ongelma, jossa törmätään rahaan.

Jotta kukaan voisi rakentaa hakukoneen, joka olisi mielekäs käyttää, pitää ensin rakentaa hakuindeksi. Hakuindeksi on tietokanta, joka sisältää kaikki hakukoneen tuntemat verkkosivut ja niiden sisällön. Kun käyttäjä hakee jotain, hakukone siis hakee hakutuloksia indeksistään, eli tietokannasta, joka sisältää kaikki sen siihen mennessä tuntemat verkkosivustot. Hakukone ei siis "hae internetistä asioita", vaan hakee käyttäjän etsimää hakusanaa luomastaan tietokannasta, jonka se on koonnut keräämällä sinne kopioita valtavasta määrästä verkkosivuja.

Ja tässä tulee se ongelma.

Ajatellaan vaikkapa aivan tavallista, hieman isompaa verkkosivustoa. Kuten vaikkapa omaa AfterDawniamme. Aivan varmaa lukua on mahdoton sanoa, mutta AfterDawn kaikkineen (ml. softasivustomme download.fi, sekä sisarsivustomme kuten Puhelinvertailu) sisältää noin 700'000 eri sivua. Jokainen uutinen on yksi sivu, kyllä. Sen lisäksi myös uutisten arkistosivut ovat kukin yksittäisiä sivuja, kuten ovat myös uutisalueen etusivu ja sen alisivut. Myös jokainen aihealueen sivu on omansa. Keskustelualueillamme jokainen uusi keskusteluaihe on uusi sivunsa - ja jos keskustelu venyy yli tietyn viestimäärän, sivutetaan viestiketju, luoden taas uusia sivuja.

Jos ajatellaan tilannetta, että hakukone haluaa tarkistaa jokaisen sivumme läpi vaikkapa kerran kuukaudessa, tietääkseen, onko jotain muuttunut, sen pitää ladata kaikki nuo 700 000 sivua uudestaan päivittääkseen tietokantansa. Ja uutissivustoille, kuten vaikkapa AfterDawnille, tuo päivitystahti on itse asiassa paljon tiheämpi.

Uusimpien tilastojen mukaan keskimääräinen yhden verkkosivun koko on nykyisin noin 1,7 megatavua. Tuossa luvussa ovat toki mukana kaikki sivuston käyttämät kuvat, tyylitiedostot, jne. Saman tilaston mukaan keskimääräinen HTML-sivu itsessään vie noin 25 kilotavua.

Jos lasketaan tuon 25 kilotavun mukaan ja jätetään kaikki "ylimääräinen" sivuilta pois, voidaan arvioida asioita paremmin. Malliesimerkkinä: AfterDawnin omistamien verkkosivujen läpikäyminen kerran kuukaudessa kuluttaa noin

25 kilotavua x 700 000 = 17 500 000 kilotavua = noin 16,7 gigatavua

kaistaa.

Eli tuon verran vähintään Googlen täytyy varata kuukaudessa kaistaa sille, että he saavat yhden suomalaisen keskikokoisen IT-uutissivuston sisällön kahlattua läpi.

Googlen hakuindeksissä on arvioiden mukaan noin 500 miljardia verkkosivua.

500 miljardin sivun kokoinen indeksi vaatii valtavasti datakaistaa boteilta, jotka käyvät päivittämässä sivut tietokantaan. Lisäksi 500 miljardin sivun tietojen säilyttämiseen vaaditun tietokannan koko on järisyttävällä tasolla.

Vertailun vuoksi: Lähimmällä kilpailijalla, Bingillä, arvioidaan olevan omassa indeksissään noin 200 miljardia verkkosivua. Toinen kilpailija, DuckDuckGo, luovutti homman suhteen kokonaan jo 10 vuotta sitten ja käyttää hakunsa moottorina Bingin hakuindeksiä, koska yhtiöllä ei yksinkertaisesti ole varaa rakentaa omaa, kattavaa hakuindeksiään.

Lisäksi uudet hakukoneet törmäävät myös toisenlaiseen seinään: kaista maksaa myös verkkosivustoille, kuten vaikkapa meille. Tämän vuoksi monet suurimmat verkkosivustot, kuten vaikkapa arvostelupalvelu Yelp, sallivat ainoastaan Googlen ja Bingin hakuroboteille pääsyn palveluihinsa.

Nyt myös tämä kulma Googlen ylivallassa on joutumassa Yhdysvaltain viranomaisten syyniin ja rapakon takana pohditaan vakavasti myös sitä, pitäisikö Googlen tietokantaa avata myös muiden hakukoneiden käyttöön. Ajatus on, että muut hakukoneet voisivat keksiä parempia hakutapoja samasta datasta kuin Google itse - ja näin myös kilpailu kovenisi, eikä markkinoilla olisi vain yhtä täysin ylivoimaista tekijää, kuten nyt.

TÄMÄN UUTISEN KOMMENTOINTI ON PÄÄTTYNYT