Tekoäly on jo ehtinyt pilata internetin kielen

Petteri Pyyny
20. syyskuuta, 2024 21:33

Avoimen lähdekoodin projekti wordfreq lakkautetaan, sillä projektin vetäjien mukaan tekoäly on jo "saastuttanut" internetin peruuttamattomalla tavalla.
wordfreq -projekti on pyrkinyt kartoittamaan ihmisten käyttämän kielen muuttumista, seuraamalla nettikeskusteluita, uutisia, keskustelualueita ja mm. Wikipedia-sivuja. Käytännössä projektissa on pyritty kartoittamaan sitä, miten uudet sanat syntyvät, miten niiden suosio kasvaa - ja samalla myös tutkimaan sanojen suosion laskua sekä tiettyjen sanojen lopullista katoamista arkielämästä.

Projektin vetäjät kertoivat julkisessa päivityksessään wordfreqin jatkon olevan mahdotonta nykyisessä muodossaan. Vetäjien mukaan generatiiviset kielimallit ovat jo ehtineet tuottaa niin paljon koneellisesti luotua "häiriötä" verkkoon, ettei minkäänlaista analyysia ihmisten todellisuudessa käyttämistä sanoista voi enää tehdä.
Jäähyväiskirjeessä vetäjät arvioivat, että projektin keräämä data aina vuoteen 2021 saakka on ollut tutkimukseen ja analyysiin kelpaavaa, mutta kaikki sen jälkeen netistä kerätty sisältö on ollut enemmän tai vähemmän generatiivisten kielimallien "saastuttamaa".

Jo nyt verkossa näkyy valtava määrä sisältöä, jonka voi helposti veikata olevan tekoälyn avulla tuotettua. Suomeksi ilmiö vieläpä korostuu, koska kielialueemme on pieni ja viimeisen vuoden, puolentoista aikana valtava määrä ulkomaisia uutissivustoja on alkanut konekääntämään sisältöään suomeksi. Myös erilaiset "influensserit", huijarit ja helppoheikit puskevat jatkuvasti tekoälyllä luotua tekstisisältöä verkkoon.

Kun merkittävä osa verkosta löytyvästä sisällöstä alkaa olemaan tekoälyn luomaa, on wordfreqin mahdotonta enää tehdä arvioita siitä, miten ihmisten käyttämä kieli elää ja muuttuu.

Projektin päävetäjän, Robyn Speerin mukaan, kaikki verkkosisällöistä tehtävä luonnolliseen kielen tutkimus on muuttumassa mahdottomaksi - juurikin tekoälyn tuottaman sisällön vuoksi.

Lisäksi tekoälyjen koulutuskin on muuttumassa pian mahdottomaksi, koska niillekään ei voida enää syöttää varmuudella ihmisten tuottamaa sisältöä. Jos taas generatiivista tekoälyä koulutetaan generatiivisen tekoälyn tuottamalla sisällöllä ja samaa toistetaan aina vain uudestaan, tapahtuu ilmiö, jota kutsutaan model collapseksi eli mallin romahdukseksi.

Lue myös nämä

Google rikkoi internetin: Suurimmat verkkosivustot suunnittelevat poistuvansa Googlen hakukoneesta kokonaan

Elon Muskin tekoälyfirma kärähti: Keräsi käyttäjiensä ohjelmistoprojektien kaikki lähdekoodit luvatta itselleen

Tekoäly ei tuhoakaan ohjelmoijien töitä, mutta voi tuhota valtavan määrän muita toimistotöitä: kirjanpitäjät, henkilöstöhallinto, ..

Tägit

tekoäly