OpenAI:n GPT-4o -kielimalli vastaa puheeseen, kuviin ja tekstiin nopeasti ja monipuolisesti

14. May, 2024 11:42

ChatGPT:sta tunnettu OpenAI julkaisi maanantaina GPT-4o -kielimallin. Sen kerrotaan olevan askel kohti paljon luonnollisempaa ihmisen ja tietokoneen välistä vuorovaikutusta.

GPT-4o hyväksyy syötteeksi minkä tahansa tekstin, äänen ja kuvan yhdistelmän ja luo minkä tahansa tekstin, äänen ja kuvan yhdistelmän.

OpenAI:n mukaan GPT-4o vastaa GPT-4 Turbo -suorituskykyä englanninkielisessä tekstissä ja koodissa, kun taas muiden kielien osalta tekstin tuotto on parantunut merkittävästi. GPT-4o on erityisen parempi näön ja äänen ymmärtämisessä nykyisiin malleihin verrattuna.

GPT-4o:n teksti- ja kuvaominaisuudet saapuvat nyt ChatGPT:hen. Ne ovat käytettävissä ilmaiseksi rajoitusten kera. Maksulliset käyttäjät voivat hyödyntää uuden kielimallin ominaisuuksia enemmän.

Puheominaisuus saapuu myöhemmin käytettäväksi.

Puhe onkin GPT-4o:n mielenkiintoisin ominaisuus.

Kielimalli pystyy hyvin nopeasti vastaamaan puheeseen ja OpenAI:n julkaisemien videoiden mukaan kielimalli pysyy erittäin hyvin keskustelussa mukana, vaikka sille puhuisi pidemmänkin pätkän kerrallaan.

Videoilla GPT-4o:ta esimerkiksi pyydetään kääntämään englanninkielinen puhe espanjaksi ja toisinpäin eli se kykenee toimimaan reaaliaikaisena kääntäjänä.

GPT-4o voi myös hyödyntää puheen lisäksi samanaikaisesti videokuvaa. Se voi esimerkiksi esittää ympäristöstä täydentäviä lisäkysymyksiä tai kuvailemaan ympäristöä eri tavoin.

Kielimallin puhe on myös hyvin luonnollisen kuuloista, sillä se voi esimerkiksi tilanteen mukaan ymmärtää käyttäjän ilmeen tai puheen sävyn.

Videoita on julkaistu OpenAI:n YouTube-tilillä ja blogikirjoituksessa.