OpenAI:lta kolme reaaliaikaista äänimallia
OpenAI on esitellyt kolme uutta reaaliaikaista äänimallia, joiden tavoitteena on vauhdittaa seuraavan sukupolven puheohjattujen sovellusten ja agenttien kehitystä. Uudet mallit, GPT-Realtime-2, GPT-Realtime-Translate ja GPT-Realtime-Whisper, on suunnattu sovelluskehittäjille, jotka hyödyntävät OpenAI:n ohjelmointirajapintaa rakentaakseen puheeseen perustuvia käyttöliittymiä, käännöspalveluja ja puheesta tekstiksi -ratkaisuja.
Tärkein julkaistuista malleista on uusi GPT-Realtime-2, jota yhtiö kuvaa ensimmäiseksi puhemallikseen "GPT-5 -luokan päättelykyvyllä". Malli on suunniteltu nimenomaan reaaliaikaiseen vuorovaikutukseen: se kuuntelee käyttäjän puhetta, jatkaa keskustelua luontevasti ja pystyy yhtä aikaa päättelemään käyttäjän tarkoitusta, kutsumaan taustalla erilaisia työkaluja tai palveluja sekä käsittelemään korjauksia ja keskeytyksiä. Tavoitteena on puheagentti, joka ei tunnu perinteiseltä "puheohjatulta valikolta", vaan keskustelevalta avustajalta.
GPT-Realtime-2 erottuu edeltäjistään useilla uudistuksilla. Yksi näkyvimmistä on niin sanottujen esipuheiden käyttö: malli voi vastata lyhyillä, ihmispuhetta jäljittelevillä fraaseilla - kuten "odotas hetki, niin tarkistan" - samalla kun se suorittaa taustalla raskaampaa päättelyä tai tiedonhakua. Tällä pyritään vähentämään käyttäjän kokemaa viivettä ja luomaan vaikutelma jatkuvasta, katkeamattomasta keskustelusta. Lisäksi malliin on lisätty kyky tehdä rinnakkaisia työkalukutsuja, mikä tarkoittaa, että se voi esimerkiksi tarkistaa kalenterin, hakea tietoa verkkopalvelusta ja päivittää tietokantaa yhtä aikaa, pitäen käyttäjän ajan tasalla prosessin etenemisestä.
Teknisesti GPT-Realtime-2 hyödyntää aiempaa selvästi pidempää konteksti-ikkunaa: aiemman 32 000 tokenin sijaan malli voi nyt käsitellä jopa 128 000 tokenia. Tämä mahdollistaa pitkien keskustelujen, laajojen kokousmuistiinpanojen tai monimutkaisten ääniviestien käsittelyn. OpenAI:n mukaan malli on myös opetettu säilyttämään paremmin erikoistermit, erisnimet ja esimerkiksi terveydenhuollon sanaston, mikä on keskeistä ammattikäyttöön tarkoitetuissa järjestelmissä.
Uutena piirteenä mallissa on äänen sävyn hallinta: puhetyyliä voidaan säätää tilanteen mukaan, esimerkiksi virallisesta asiakaspalvelusta rennompaan keskusteluun. Kehittäjät voivat lisäksi valita mallille eri tasoisia päättelyasetuksia - minimaalinen, matala, keskitaso, korkea ja erittäin korkea - ja tasapainottaa näin vasteaikaa, kustannuksia ja päättelyn syvyyttä. Korkeampi päättelytaso sopii vaativampiin tehtäviin, kun taas kevyemmät asetukset voivat riittää yksinkertaisiin kysymyksiin tai rutiinitehtäviin.
Toinen uutuus, GPT-Realtime-Translate, on suunnattu reaaliaikaisiin monikielisiin puhekokemuksiin. Malli osaa kuunnella yli 70 kieltä ja tuottaa puhetta 13 eri kielellä, ja sen on tarkoitus pystyä kääntämään puhetta "puhujan tahdissa" - eli ilman pitkiä viiveitä lauseiden välissä. OpenAI:n mukaan malli kykenee käsittelemään myös kontekstin vaihteluita, alueellisia aksentteja ja toimialakohtaista sanastoa, mikä on tärkeää esimerkiksi kansainvälisissä asiakaspalveluissa, monikielisissä kokouksissa ja tapahtumien reaaliaikaisissa tulkkauksessa. Käytännössä tämä voi tarkoittaa esimerkiksi sitä, että esitys kääntyy lennossa useille kielille.
Kolmas uusi malli, GPT-Realtime-Whisper, on reaaliajassa puhetta tekstiksi muuttava malli, joka on optimoitu mahdollisimman nopeaksi. Se tuottaa tekstin sitä mukaa, kun puhuja puhuu, ilman merkittävää jälkiviivettä. Tällainen teknologia on keskeinen reaaliaikaisissa tekstityksissä, kokousmuistioiden automaattisessa luonnissa, luentojen litteroinnissa sekä saavutettavuusratkaisuissa, joissa puhe täytyy muuttaa tekstiksi lähes välittömästi. OpenAI korostaa, että reaaliaikaisuus voi saada tuotteet tuntumaan "nopeammilta ja responsiivisemmilta", kun teksti päivittyy ruudulle käytännössä samassa tahdissa puheen kanssa.
Kaikki kolme mallia ovat nyt sovelluskehittäjien käytettävissä OpenAI:n Realtime API -rajapinnan kautta.
KOMMENTOI
Haluatko kommentoida tätä artikkelia?
Kirjaudu sisään tai Luo uusi käyttäjätunnus.