Petteri Pyyny
6. huhtikuuta, 2025 20:21
Tekoälyfirmoja on putkahtanut maailmaan viimeisen parin vuoden aikana käsittämätön määrä. Ja nykyisin iso osa niistä tekee jotain verkkohaun kaltaisia toimintoja kuluttajien pyynnöistä. Lisäksi tekoälyfirmat kahlaavat läpi nettiä jatkuvasti, raapiakseen käyttöönsä aina vain uudempaa ja tuoreempaa koulutusdataa tekoälymalliensa kehittämiseksi.
Verkkosivustot voivat päättää, ketkä saavat indeksoida niiden sisältöä ja sen, miten usein sisältöä saa hakea. Tätä tarkoitusta varten lähes jokaisella verkkosivustolla on käytössä robots.txt -tekstitiedosto sivuston juuressa, joka sisältää ohjeet sille, miten botit voivat sivustolla käyttäytyä.
Mutta iso osa verkon uusista tekoälyboteista ei kunnioita näitä, jo vuosikymmeniä sitten sovittuja sääntöjä lainkaan. Vaan ne imevät itselleen kaiken mahdollisen sisällön ja saattavat hakea tiedot sivuilta aina vain uudestaan ja uudestaan, hurjalla tahdilla.
Vaikka netti vaikuttaakin monesti kuluttajan näkökulmasta paikalta, jossa kuluttaja maksaa verkon selailusta omalle operaattorilleen, niin homma toimii tosielämässä myös toisinpäin. Sivustot maksavat omasta verkossa olemisestaan oikeaa rahaa, ns. hosting-yrityksille. Summat ovat pienten blogien kohdalla vain joitain euroja kuukaudessa, mutta suosituimpien sivustojen osalta summat liikkuvat jo miljoonissa vuositasolla. Jopa keskisuurille kotimaisille sivustoillekin verkkosivun ylläpitokulut palvelin- ja verkkokapasiteetin osalta, ovat merkittävä kuluerä.
Libre-verkkosivusto kertoo, miten useat avoimen lähdekoodin ohjelmistoprojektit ovat täysin pulassa uuden tekoälyvillityksen myötä. Tekoälyfirmojen botit kahlaavat läpi pientenkin avoimen lähdekoodin projektien sivuja kiihtyvällä tahdilla ja haukkaavat pahimmillaan 97 prosenttia kaikesta liikenteestä. Tämä johtaa toisinaan siihen, että avoimen lähdekoodin projektia ylläpitävä taho sulkee koko avoimen lähdekoodin koodikirjastoon pääsyn, koska liikennemäärät muodostuvat liian kalliiksi.
Ja jopa jättimäinen Wikimedia on törmännyt samaan ongelmaan. Wikimedia tunnetaan parhaiten tietysti ylläpitämästään Wikipediasta, joka on avoimesti saatavilla olevan sisältönsä ansiosta kultakaivos tekoälyfirmoille, jotka haluavat kouluttaa mallejaan.
Mutta Wikipediakin kärsii täsmälleen samasta ongelmasta: jopa 35% kaikesta sen liikenteestä tulee boteilta ja bottien aiheuttama liikenne kohdistuu etenkin kaikkein kuormittavimpiin osiin Wikimedian ja Wikipedian palvelimia, haukaten 65% kaikesta palvelinten resursseista.
Käytännössä botit nostavat Wikipediankin kuluja, eli se tarvitsee lisää lahjoituksia, jotta vastaava palvelutaso voidaan säilyttää tulevaisuudessa, kun botit haukkaavat ison osan kaikesta lahjoitusrahalla pyörivästä palvelinkapasiteetista.
Jotkut avoimen lähdekoodin tekijät ovat jo alkaneet vastatoimiin ja mm. kokonaisia IP-avaruuksia on päätetty estää, eli vaikkapa tietyistä isoista verkon osoiteavaruuuksista ei enää pääse lainkaan tiettyjen avoimen lähdekoodin projektien sivuille. Myös erilaisia teknisiä ratkaisuja on kehitelty, jotka pyrkivät tunnistamaan tekoälybotit ennen kuin käyttäjä päästetään varsinaiseen sisältöön käsiksi.