Tämän takia DeepSeek on niin merkittävä

Petteri Pyyny

2 kuukautta sitten

Kiinalaisen startup-firman DeepSeekin viime viikolla julkaisema tekoäly - tai tarkemmin suuri kielimalli (LLM) - on ollut tärkein teknologia-alan uutinen koko maailmassa jo useamman päivän ajan.

Yhtiö onnistui kouluttamaan tekoälyn, joka on yhtä hyvä kuin tekoälyalan jättiläisen, OpenAI:n paras kielimalli, o1. Yhtiö kehitti DeepSeek r1-kielimallinsa vain reilun viiden miljoonan dollarin budjetilla, kun OpenAI poltti oman kielimallinsa kehittämiseen tietäävästi vähintäänkin sata miljoonaa dollaria.

Mutta DeepSeek on saanut sekä mediassa että sosiaalisessa mediassa paljon lokaa niskaansa, Suomessakin.

Ihmiset ovat rynnänneet kokeilemaan DeepSeekin omaa chattibottia sekä kännykkäsovelluksen että yhtiön verkkosivujen kautta. Kokeilijat ovat tietysti päätyneet testaamaan, miten pahasti kiinalainen tekoäly sensuroi Kiinan kannalta ikäviä aiheita, kuten vaikkapa vuoden 1989 Taivaallisen rauhan aukion mielenosoituksia, jotka johtivat aikoinaan verilöylyyn.

MAINOS

Lue lisää

Mutta kritisoijat eivät ymmärrä sitä, miksi DeepSeek r1 -kielimalli on niin käsittämättömän tärkeä.

DeepSeek r1:n merkitykselle on kaksi syytä, joita ymmärtääkseen täytyy ymmärtää tekoälybisneksen perusteita hieman paremmin.

Sovellus on lelu ja mainos

Kuluttajien käyttöön tarkoitetut tekoälybotit, kuten ChatGPT:n verkkosivusto ja sovellus sekä DeepSeekin vastaavat palvelut, ovat käytännössä rahaa polttavia leluja, jotka on tarkoitettu massojen viihdytykseen, ongelmien löytämiseen kielimallista ja markkinointityökaluiksi.

Edes maksulliset versiot erilaisista tekoälypalveluista eivät todennäköisesti ole niitä pyörittäville firmoille millään tavalla taloudellisesti kannattavia. Ja luonnollisesti, kuluttajien käyttöön tarkoitetut ilmaisversiot ChatGPT:stä ja DeepSeekistä ovat vain hurjaa rahan polttamista yhtiöiltä.

Todellinen raha tehdään yrityksiltä. Tälläkin hetkellä maailmassa todennäköisesti kaikki edes keskikokoiset yritykset miettivät pää kuumana sitä, miten tekoälyä voitaisiin ottaa yrityksen käyttöön, sen toimintoja tehostamaan.

Isot käyttökohteet eivät ole yleensä sellaisia, jotka näkyisivät välttämättä tavalliselle ihmiselle koskaan. Tekoälyä saatetaan käyttää vaikkapa varastotilanteen arviointiin ja logistiikan tehostamiseen ruokakaupoissa. Tai vaikkapa havaitsemaan paremmin tietoturvauhkia, löytämällä erikoisia jälkiä valtavasta verkkoliikenteen massasta. Kaikki selkeisiin sääntöpohjaisiin rajoitteisiin pohjautuvat toiminnot ovat täydellistä maaperää tekoälyn käytölle, jolloin yritys tehostaa omia prosessejaan. Nämä käyttökohteet eivät näy oikeastaan koskaan tavalliselle ihmiselle, mitenkään.

Ja näihin kaadetaan rahaa. Valtavasti. Nimenomaan yritysten tarpeisiin tekoälyyn satsataan miljardeja, kuten vaikkapa Microsoftin suunnitelma sijoittaa tekoälylaskentaan kymmeniä miljardeja ja hiljattain julkistettu Stargate -hanke, jossa suunnitellaan jopa 500 miljardin dollarin sijoituksia tekoälylaskentaan.

Juuri tästä syystä Microsoft on tahkonnut valtavan hyvää tulosta viime aikoina, sillä yhtiön Azure-pilvipalvelut ovat olleet tähän saakka ainoat, jotka ovat natiivisti tarjonneet OpenAI:n tekoälyä yritysohjelmoijien käyttöön.

Ja tämän vuoksi Google uhkasi nostaa Microsoftin OpenAI-diiliä vastaan kanteen, kun yhtiön omat tekoälymallit eivät olleet yrityksille palveluita kehittävien koodaajien mielestä yhtä houkuttelevia.

Valtava tarve yritysten tekoälytarpeisiin riittävälle laskentakapasiteetille on puolestaan satanut suoraan Nvidian pankkitilille, sillä yhtiön H200 -tekoälykortit ovat olleet se tärkein rauta, jonka päällä tekoälylaskentaa on tehty. Yhtiö on myynyt näitä tekoälylaskentaan tarkoitettuja GPU-kortteja Microsoftin ja Googlen kaltaisille toimijoille, jotka puolestaan myyvät korteista revittyä tekoälylaskentaan tarkoitettua tehoa eteenpäin yrityksille.

DeepSeek on valtavan halpa

Nyt kun ymmärrämme alan toimintalogiikan, ymmärrämme paremmin sen, miksi DeepSeek on niin tärkeä.

Comment
byu/johnzakma10 from discussion
inLocalLLaMA

DeepSeekin koulutus ja ennenkaikkea sen ajaminen maksavat naurettavan vähän. Yllä olevasta taulukosta näkyy, miten DeepSeek r1 -kielimallin käyttö yhtä tokenia eli tekoälyn "laskentayksikköä" tai "sanaa" kohden maksaa vain sadasosan siitä, mitä OpenAI:n kehittyneimmän mallin, o1:n, ajaminen maksaa.

Eli yhtäkkiä firmat voivat leikata tekoälylaskentaan kaadettua rahavuortaan 90 prosenttia pienemmäksi ja saada saman tai jopa paremman lopputuloksen DeepSeekin avulla. Tämä puree suoraan tekoälylaskentaa tarjoaviin pilvitoimijoihin, kuten Googleen ja Microsoftiin. Ja tietysti välillisesti myös Nvidiaan.

DeepSeek julkaistiin avoimena lähdekoodina

Toinen merkittävä tekijä on se, että DeepSeek julkaisi kielimallinsa ja tekoälynsä avoimena lähdekoodina. Eli se voidaan ottaa, muokata ja tehdä siitä jonkun toisen toimijan käyttöön sopivampi versio.

Yhtiö on julkaissut myös koko tekoälyn koulutusprosessinsa kuvauksen avoimena verkkoon, joten eri yhtiöt voivat alkaa tekemään DeepSeekin pohjalta eri käyttötarkoituksiin tehtyjä versioita, täysin vapaasti.

Tämä tietysti tuhoaa OpenAI:n markkinaa pahasti - ja välillisesti tuo pilvilaskentaa tarjoaville yhtiöille, kuten Microsoftille, vuoren uusia kilpailijoita. Tähänkin saakka hyvin päteviä avoimen lähdekoodin suuria kielimalleja on ollut tarjolla, mutta aina OpenAI on ollut askeleen edellä. Nyt näin ei enää ole. Ja lisäksi DeepSeekin kielimalli vaatii huomattavasti paljon vähemmän laskentatehoa kuin muut yhtä pätevät kielimallit.

Eli yhteenvetona voidaan todeta, että sovellus saattaa hyvinkin vuotaa kaiken siihen syöttämäsi Kiinaan - ja todistetusti sensuroikin vastauksia. Mutta DeepSeekin merkitys ei olekaan siinä markkinointia varten, kuluttajille luodussa sovelluksessa ja verkkopalvelussa, vaan se muutti kertaheitolla tekoälyalan bisneksen kannattavuuslaskelmat aivan totaalisesti. Tämän DeepSeek r1 teki luomalla merkittävästi halvemman kielimallin, joka on kuitenkin yhtä hyvä kuin markkinoiden paras kilpailija.

Sovellus on lelu ja mainos

DeepSeek on valtavan halpa

DeepSeek julkaistiin avoimena lähdekoodina

TÄMÄN UUTISEN KOMMENTOINTI ON PÄÄTTYNYT