Manu Pitkänen
20. lokakuuta, 2016 10:13
Microsoft Research -tutkimusorganisaation tutkijat ovat onnistuneet kehittämään tekoälyjärjestelmän, joka tunnistaa puhetta yhtä hyvin kuin litterointia ammatikseen tekevät ihmiset. Microsoft Research julkaisi artikkelin kehittämästään järjestelmästä tällä viikolla.
Tekoälyjärjestelmien puhetunnistuskykyä mitataan yleisesti Switchboard- ja CallHome-testeillä. Microsoft testautti järjestelmät ammattilaisilla, joiden sanavirhesuhde testeissä oli keskimäärin 5,9 ja 11,3 prosenttia. Tämän jälkeen Microsoft suoritti testit tekoälyllä, jonka sanavirhesuhde Switchboardissa oli 5,9 prosenttia ja CallHomessa 11,1 prosenttia. Tekoäly teki tehtävissä siis hieman vähemmän virheitä kuin ammattilaiset.
Vuosi sitten Microsoftin kehittämällä tekoälyllä päästiin Switchboard-testissä 6,3 prosentin virheosuuteen, joten järjestelmää on saatu parannettua 0,4 prosenttiyksikön verran.
Tulevaisuuden kehitysalueita puheentunnistuksessa on tulkinnan lisäksi järjestelmän toimintavarmuuden parantaminen. Tällä hetkellä taustamelu muut kilpailevat äänilähteet häiritsevät puhetunnistusta, minkä takia järjestelmä voi tulkita sanoja väärin. Tavoitteena on kehittää malleja, joissa tekoäly osaisi kuunnella "oikeaa" äänilähdettä. Lisäksi tunnistusta halutaan kehittää riippumattomammaksi puhujan aksentista, iästä tai puhevioista.