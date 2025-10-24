Onko ihmisten aikakausi verkossa päättymässä..? Yhden arvion mukaan näin on.

Hakukoneoptimointiin keskittyvä Graphite.io julkaisi hiljattain tutkimuksen, jossa analysoitiin julkisesti saatavilla olevan internetin sisältöjä viime vuosilta.

Yhtiö käytti lähdemateriaalina Common Crawl -tietokantaa, joka ottaa eräänlaisen "ruutukaappauksen" internetin sisällöstä kerran kuukaudessa.

Common Crawl on ollut pitkään mm. tekoäly-yhtiöiden tärkein sisältölähde kielimallien kouluttamiseen, vaikkakaan sen käyttö ei millään tavalla takaa sitä, että siihen kerättyjä sisältöjä saisi tekoälyn koulutukseen käyttää. Tuorein Common Crawl on lokakuulta 2025 ja sen koko pakkaamattomana on noin 468 teratavua ja se sisältää 2,6 miljardia verkkosivua.

Graphite.io pisti kuukausittain lisätyt uudet sisällöt ohjelmiston läpi, joka on tarkoitettu tunnistamaan tekoälyllä luotua sisältöä ihmisten luomasta sisällöstä.



Lopputuloksena oli, että tekoälyllä tuotetun uuden tekstimuotoisen sisällön määrä netissä on ollut oikeastaan koko vuoden 2025 ajan suurempi kuin ihmisten tuottaman sisällön määrä.

Samalla kuitenkin on lohdullista se, että tekoälyllä tuotetun tekstisisällön määrän kasvu näyttää taittuneen vuoden 2025 aikana ja nyt olemme päätyneet suurinpiirtein 50/50 tasoon ihmisten ja tekoälyn tuottaman uuden sisällön osalta.

Toki mm. Axios huomauttaa omassa artikkelissaan (vaatii kirjautumisen) siitä, että ohjelmistot, joiden pitäisi tunnistaa tekoälyllä tuotettu tekstisisältö, ovat tunnetusti hyvin vaihtelevilla tuloksilla oikeaan osuvia.

Eli luvut voivat olla suuntaan tai toiseen hyvinkin paljon väärässä. Lisäksi Common Crawl ei sisällä maksumuurien takana olevaa sisältöä, joka oletettavasti on ainakin pääosin edelleen ihmisvoimin tuotettua.

Mutta olipa tekoälyn tuottaman tekstisisällön osuus sitten 30, 50 tai 70 prosenttia, tarkoittaa se samalla myös valtavaa ongelmaa tekoälyfirmoille itselleen.

Kielimallien koutulukseen käytetään verkosta löytyvää sisältöä. Ja jos tekoälyä koulutetaan tekoälyn luomalla sisällöllä, sen laatu alkaa laskemaan jyrkästi, mitä useamman kierroksen tätä tapahtuu. Kyseistä ilmiötä kutsutaan model collapseksi eli malliromahdukseksi.