Anthropic julkaisi Claude Opus 4.8:n – tekoälystä tehtiin neljä kertaa rehellisempi
Anthropic on päivittänyt tekoälymallinsa uuteen Claude Opus 4.8 -versioon. Päivitys tuo parannuksia suorituskykytesteihin ja tekee mallista entistä tehokkaamman vaativiin tehtäviin. Uutuus on saatavilla heti.
Yksi päivityksen keskeisimmistä askeleista eteenpäin liittyy tekoälyjen yleiseen ongelmaan eli hätäisiin johtopäätöksiin ja liialliseen itsevarmuuteen.
Anthropicin mukaan Opus 4.8 on opetettu entistä rehellisemmäksi, joten se osaa nyt paremmin liputtaa omat epävarmuustekijänsä. Arvioinneissa malli osoittautui noin neljä kertaa edeltäjäänsä epätodennäköisemmäksi päästämään koodissa olevia virheitä läpi ilman huomautusta.
Samaan aikaan palveluun tuodaan uusi panostuksen säätö (effort control), jolla käyttäjä voi itse päättää tekoälyn ajattelun syvyyden. Korkeampi asetus pakottaa mallin pohtimaan vastauksiaan syvällisemmin, kun taas matalampi asetus tarjoaa vastaukset nopeammin ja kuluttaa viestikiintiötä hitaammin.
Kehittäjille suunnatussa Claude Code -ympäristössä nähdään puolestaan uusi dynaamisten työvaiheiden (dynamic workflows) esikatselu, joka on suunniteltu laajoihin koodausprojekteihin. Tekoäly kykenee laatimaan itsenäisen toimintasuunnitelman ja ajamaan jopa satoja rinnakkaisia alitekoälyjä yhdessä istunnossa.
Käytännön esimerkkinä tästä mainitaan Bun-ohjelmistokehys, joka portattiin Zig-kielestä Rust-kielelle. Dynaamisten työvaiheiden avulla noin 750 000 koodirivin kokonaisuus siirrettiin yhdentoista päivän aikana siten, että 99,8 prosenttia olemassa olevista testeistä meni suoraan läpi.
Myös mallin kustannustehokkuuteen ja nopeuteen on tehty muutoksia, sillä Opus 4.8:n perushinta säilyy ennallaan, mutta sen 2,5-kertaisella nopeudella toimiva "Fast mode" on nyt kehittäjille kolme kertaa aiempaa halvempi.
Malli ottaa kärkipaikan agenttimaisessa koodauksessa (SWE-Bench Pro) 69,2 prosentin tuloksella peitoten selvästi GPT-5.5:n ja Gemini 3.1 Pron. Tilanne kuitenkin muuttuu komentorivikoodausta mittaavassa Terminal-Bench 2.1 -testissä, jossa Opus 4.8 saavuttaa 74,6 prosenttia, mutta joutuu taipumaan OpenAI:n GPT-5.5-mallille, joka pitää kärkipaikkaa 78,2 prosentin tuloksella.

Kilpailutilannetta kiristää entisestään Googlen hiljattain Google I/O 26 -tapahtumassa julkaisema Gemini 3.5 Flash -malli, jota yhtiö kuvailee tähän asti vahvimmaksi työkalukseen erityisesti koodaamiseen ja monivaiheisiin agenttitehtäviin.
Flash-sarja on mielletty kevyemmäksi vaihtoehdoksi, mutta se saavutti Terminal-bench 2.1 -testissä 76,2 prosentin tuloksen, mikä ylittää paitsi Claude Opus 4.8:n, myös vanhemman Gemini 3.1 Pron. Gemini 3.5 Flash loistaa erityisesti nopeudessa, sillä se kykenee tuottamaan peräti 289 tokenia sekunnissa. Tämä tekee siitä yli neljä kertaa nopeamman kuin GPT-5.5:stä tai Claude Opus 4.7:stä, joiden nopeudet jäävät noin 70 tokeniin sekunnissa.
Googlelta on myös pian tulossa Gemini 3.5 Pro -malli.
Anthropic kehittää parhaillaan entistä edullisempia vaihtoehtoja sekä kokonaan uutta malliluokkaa osana Project Glasswingiä, jossa Claude Mythos Preview -mallia testataan parhaillaan rajoitetusti kyberturvallisuustekniikan parissa. Sen odotetaan saapuvan laajemmin asiakkaiden käyttöön tulevien viikkojen aikana, kunhan tarvittavat suojamekanismit saadaan valmiiksi.
KOMMENTOI
Haluatko kommentoida tätä artikkelia?
Kirjaudu sisään tai Luo uusi käyttäjätunnus.