Petteri Pyyny
24. toukokuuta, 2021 14:53
Google on julkaissut avoimella lisenssillä uuden tekoälyn koulutukseen tarkoitetun mallin. Projektin tarkoituksena on opettaa tekoälyä tunnistamaan valheelliset ja harhaanjohtavat väitteet.
Google käyttää jo nyt laajalti tekoälyä ja koneoppimista tuotteissaan, mutta uuden projektin tarkoitus on parantaa tekoälyn ymmärrystä siitä, mikä on todenmukaista ja mikä valheellista. Koneoppimisessa ja tekoälyssä luodaan yleensä ns. pohjatiedot, joilla tekoälyä opetetaan - ja tähän kulmaan KELM pureutuu. Koneoppimisen suurin ongelma on GIGO, eli garbage in, garbage out - suomeksi siis, jos algoritmiä koulutetaan roskasisällöllä, se yksinkertaisesti tuottaa roskasisältöä.
KELM-mallissa koneoppimista täsmennetään alkuvaiheessa varmasti todenmukaisella tiedolla, kuten vertaisarvioiduilla tieteellisillä dokumenteilla ja muilla ehdottoman luotettaviksi pidetyillä sisällöillä. KELM on lisensoitu vapaasti Creative Commonsin lisenssillä eli sen käyttö ei ole rajattu ainoastaan Googlen omaan käyttöön.
Google ei kerro itse sitä, käyttääkö yhtiö jo nyt KELMiä hakutulostensa rakentamiseen vai onko kyseessä vasta konsepti. Todennäköisintä on, että KELMin vaikutusta Googlen hakuun kokeillaan yhtiön sisäisessä testauksessa varsin pitkään ennen päätöksen tekemistä siitä, otetaanko se käyttöön myös varsinaisessa haussa. Google pyrkii kaikissa merkittävissä muutoksissa seuraamaan sitä, että muutokset eivät aiheuta ei-toivottuja muutoksia hakutulosten välillä.
Jos KELM otetaan käyttöön, se tarkoittaisi käytännössä täysin valheellisia väitteitä sisältävien sivustojen katoamista hakutuloksista. Nyt kyseiset sivut näkyvät hakutuloksissa, usein jopa hakutulosten kärjessä, jos käyttäjän hakuprofiili viittaa siihen, että käyttäjää kiinnostavat em. tyyppiset sisällöt.
KELMistä (joka on lyhenne nimihirviöstä Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training) tarkemmin Googlen tekoälyblogissa.