Opas: Deepfake -videot: Mitä ne ovat, miten niitä tehdään ja miten ne tunnistaa?

Petteri Pyyny

15. August, 2020 12:12

Yksi viime vuosien kohutuimpia ilmiöitä ovat olleet deepfake -videot, joista on noussut otsikoita ympäri maailmaa. Niiden tekemistä on rajoitettu lainsäädännöllä, niiden leviämistä on yritetty estää monin tavoin ja niiden tekoon tarkoitettuja työkaluja on kadonnut säännöllisesti netistä bittiavaruuteen.

Mutta mitä ihmettä oikein ovat deepfake -videot ja miksi niistä kohistaan? Käymme artikkelissamme läpi nämä - ja monta muuta kulmaa aiheeseen.

Mitä ovat deepfake -videot?
Mikä deepfake-videoissa on ongelmana?
Laillisuus
Miten deepfake-videot tunnistaa?
Miten deepfake toimii?
Miten deepfake-videoita tehdään?

Mitä ovat deepfake-videot?

Yksinkertaisimmillaan deepfake on tekniikka, jolla olemassa olevaan videoon voidaan vaihtaa henkilön kasvot toisen ihmisen kasvoiksi. Niin hyvin ja täydellisesti, että muutosta on lähes mahdotonta erottaa, ainakaan omin silmin.

Käytännössä siis deepfake-teknologian avulla voidaan vaihtaa musiikkivideolla oleva artisti vaikkapa Donald Trumpiksi niin, että lopputulos näyttää täydelliseltä: siinähän se Donald on räppäämässä.

Arnold Schwarzenegger Demolotion Manina

Yllä yksi esimerkki tällaisesta teoksesta, vaikkakaan tässä laatu ei yllä vielä parhaiden, edes huipputason amatöörien tekemien deepfake-videoiden tasolle. Videolla siis Sylvester Stallonen tähdittämän Demolition Man-elokuvan sankarina heiluukin Arnold Schwarzenegger. Videon ääniraita on ehkä sen huonoin puoli, mutta muutoin video on mukiinmenevä esimerkki deepfaken avulla tehdystä kasvojen vaihdosta.

Miksi deepfake-videot ovat ongelma?

Deepfake-videoissa on useita eri ongelmakohtia, sekä lainsäädännöllisesti että yksityisyydensuojan kannalta.

Voidaan ajatella tilannetta, jossa eroon päätyneen pariskunnan toinen osapuoli nappaa netistä aikuisviihdevideon, vaihtaa siinä näkyvän näyttelijän kasvot exänsä kasvoiksi ja pistää videon tämän jälkeen jakoon verkon aikuisviihdepalveluihin. Jokainen ymmärtää tällaisen tilanteen ongelmat uhrin näkökulmasta.

Yksi eniten julkisuutta saaneista deepfake-videoiden muodoista koskee julkisuuden henkilöistä tehtyjä aikuisviihdevideoita. Eli takana ovat ne päivät, kun julkkiksen oikean kotivideon piti vuotaa nettiin, jotta aikuisviihdepalveluilla oli sisältöä hänestä - nyt deepfake-ohjelmien avulla voidaan vastaavaa materiaalia tuottaa kenestä tahansa julkisuuden henkilöstä. Suuret aikuisviihdesivustot ovatkin jo kieltäneet tällaisten videoiden lisäämisen palveluihinsa.

Toinen ongelma koskee uutisten ja median luotettavuutta. Deepfake-tekniikan avulla voidaan luoda uskottavia videoita, joissa merkittävät poliitikot pistetään sanomaan aivan jotain muuta, kuin mitä he ikinä sanoisivat ääneen. Käytännössä tällaisen tempun tekijän täytyy tehdä vaikkapa huijaushaastattelu ystävänsä kanssa, kuvata se ja vaihtaa tämän jälkeen "haastateltavan" kasvot deepfake-tekniikalla kuuluisan poliitikon kasvoiksi.

Donald Trump..?

Tästä löytyy netistä suhteellisen viattomia esimerkkejä useita, yllä yksi esimerkki, joka ei on selkeästi harrastajan tekele.

Kolmas merkittävä ongelma koskee tietysti oikeudenkäyntejä. Videomateriaalin käyttö todistusaineistona on ollut merkittävässä roolissa jo vuosikymmenten ajan oikeudenkäynneissä. Mutta nyt tullaan tilanteeseen, jossa videon todenmukaisuuteen ei voi enää luottaa, vaikka videon resoluutio ja tarkkuus olisi huikealla tasolla - kuvaan on voitu vaihtaa deepfaken avulla jonkun toisen kasvot.

Laillisuus

Lainsäädäntö on erittäin pahasti jäljessä deepfake-videoiden osalta ja voidaankin olettaa, että lähitulevaisuudessa lainsäädäntö kehittyy aiheen tiimoilta kovaa vauhtia. On vaikea määritellä, onko esimerkiksi exästä tehty deepfake-aikuisviihdevideo halventamista, yksityisyydensuojan rikkomista, täyttääkö se kunnianloukkauksen merkistön vai sovelletaanko siihen jotain täysin muuta lain pykälää.

Helpoimmalla pääseekin, jos tekee deepfake-videoita vain omaksi ilokseen, omalla materiaalilla ja kysyy kaikilta osapuolilta luvat videoiden luontiin. Ja jättää ne levittämättä nettiin.

Miten deepfake-videot voi tunnistaa?

Helpoimmin deepfake-videot tunnistaa tietysti kontekstista. Jos Sauli Niinistö näyttää siirtyneen Iron Maidenin laulajaksi, voidaan suhteellisen helposti päätellä kyseessä olevan mitä ilmeisimmin deepfake -video.

Mutta jos kontekstia ei ole, jonka pohjalta päätelmiä voisi tehdä, ollaankin jo ongelmissa. Amatöörien tekemät deepfake-videot tunnistaa yleensä vielä videota tarkkaan seuraamalla - joissain kohdissa videota kasvojen vaihto pettää hetkeksi tai kasvot vääntyvät hetken ajaksi luonnottomaan asentoon. Näistä merkeistä deepfake -videot on vielä suhteellisen helppo tunnistaa.

Kun taas ammattilaiset alkavat tekemään deepfake-videoita, siten, että mukana on ryhmä kuvan- ja videonkäsittelyn ammattilaisia - ja mahdollisesti tiedustelupalveluiden ammattitaitoa - ollaankin jo syvässä päädyssä. Ja näin jo vuonna 2020 voidaan suosiolla sanoa, että suurilla resursseilla ja huippuammattilaisten tekemänä deepfake-videon erottaminen oikeasta videosta on maallikolle käytännössä mahdotonta.

Teknologiajätit ovat yhdessä pohtineet ja kehittäneet ratkaisuja deepfake-videoiden tunnistamiseksi, mutta maali on tavallaan liikkuva: kun videoiden tunnistamiseen käytetty tekniikka kehittyy, kehittyy myös deepfake-videoiden luontiin käytetty tekniikka. Eli videoiden, nimenomaan ammattimaisesti tehtyjen, tunnistaminen on äärimmäisen haastava kissa-ja-hiiri -leikki. Kuuluisa MIT -yliopisto pohtii aihetta omassa artikkelissaan laajasti.

Miten deepfake-videot teknisesti toteutetaan?

Käytännössä deepfake-videoiden luontiin käytetään koneoppimista ja neuroverkkoja. Eli kansankielellä "tekoälyä".

Deepfakejen tekoon tarkoitettu ohjelma purkaa osiin halutun kohdevideon (videon, johon halutaan vaihtaa toiset kasvot tilalle) ja pyrkii löytämään sieltä kasvot ja kasvojen eri kohdat, liikeradat, jne - kaiken sen, mistä ihmissilmä ylipäätään ihmisen kasvot tunnistaa.

Tämän lisäksi vastaaviin osiin puretaan myös kasvot, jotka videoon halutaan vaihtaa tilalle. Tämän oppimisprosessin jälkeen ohjelma alkaa vaihtamaan kasvoja pala kerrallaan videoon. Aiheesta kiinnostuneilla suosittelemme tähän artikkeliin perehtymistä, joka avaa koneoppimisen tekniikkaa deepfake-videoiden osalta erittäin ansiokkaasti.

Miten deepfake-videoita tehdään?

Kaiken edellä mainitun varoittelun jälkeen tietysti nyt iskee himo kokeilla tekniikkaa itsekin. Käytännössä tässä vaiheessa vaaditaan hieman osaamista, paljon aikaa, lähdemateriaalia sekä pöytätietokone, josta löytyy tarkoitukseen sopivaa rautaa.

Alun perin deepfake -videoita tehtiin pääosin FakeApp -ohjelmalla (ei siis viime vuosina suosituksi noussut FaceApp -mobiilisovellus), mutta sittemmin sen tilalle alan suosituimmaksi työkaluksi on vaihtunut DeepFaceLab -ohjelma, joka on avointa lähdekoodia.

Käytännössä hyvän deepfake-videon luontiin vaaditaan seuraavat osaset:

Aikaa
- Koneoppimisen prosessi vie tehokkaallakin kotikäyttöön tarkoitetulla tietokoneella tuntikausia aikaa ja usein ensimmäisten yritysten tulokset eivät ole mitenkään upeita, joten jokainen asetusten säätökerta vaatii jälleen prosessin uudelleenkäynnistyksen - ja odottelua
Nopea NVIDIAn piirillä varustettu näytönohjain
- DFL-ohjelma ei tue lainkaan AMD:n tai Intelin näytönohjaimia, joilla laskenta suoritetaan. Käytännössä NVIDIA 1080Ti tai sitä paremmat NVIDIAn piiriin pohjautuvat näytönohjaimet ovat suositeltuja tähän käyttöön. Listan ja hinnat parhaista näytönohjaimista löydät täältä.
Videotiedoston, johon haluat vaihtaa toiset kasvot tilalle
- Avuksi voivat olla erilaiset "lataa youtubesta"-työkalut, jos haluat vaihtaa kasvot vaikkapa musiikkivideoon
Vähintään 500 kuvaa ihmisestä, kenet haluat videoon tai useampia videoita (mielellään ainakin kolme usean minuutin mittaista videota, jossa näkyvät kasvot eri kulmista ja eri asennoista - ja mielellään mahdollisimman ison osan videon kestosta) ihmisestä, kenet haluat vaihtaa videoon
- Koska koneoppiminen vaatii materiaalia, josta neuroverkot voivat oppia ihmisen kasvonliikkeistä, vaaditaan materiaalia paljon, myös tilalle vaihdettavasta ihmisestä
DeepFaceLab -ohjelman
Tietotekniikan osaamista tai halua opetella - prosessi ei ole todellakaan "napauta tästä ja odottele"-tyylinen, vaan hyvien deepfake-videoiden luonti vaatii kärsivällisyyttä ja paljon googlettelua aiheen tiimoilta

Lisäksi seuraavat seikat kannattaa ottaa huomioon videoita tehdessä:

DFL-ohjelma vaihtaa ainoastaan kasvot, eli hiusten, ruumiinrakenteen, jne pitäisi vastata pitkälti vaihdettavan ihmisen vastaavia kriteereitä, jotta videosta tulisi uskottava
videon ja lähdemateriaalin eri ilmeiden, kuvakulmien, jne pitäisi ainakin jossain määrin vastata toisiaan
vaihdettavan henkilön ihon värin pitää olla lähellä alkuperäisen videon henkilön ihonväriä, koska koneoppiminen pohjautuu osittain kasvojen varjoihin ja korkeuseroihin

Karkeasti voidaan sanoa, että kahden minuutin mittaisen videon luonti, jossa lähteenä käytetään toista kahden minuutin mittaista videota, kestää NVIDIA GTX 1060 -näytönohjaimella, hieman maltillisemmilla asetuksilla ajettaessa noin 12 tuntia. Pidempiä videoita, parempia asetuksia tai suurempaa määrää lähdemateriaalia käytettäessä saatetaan puhua useista vuorokausista. Ja vastaavasti, nopeammalla näytönohjaimella prosessi nopeutuu.

Onhan se Obama..? Onhan?

Jos aihe kiinnostaa enemmänkin, kysy lisää joko kommenteissa tai keskustelualueillamme. Suosittelemme myös Redditin SWFdeepfakes -redditiin tutustumista, jossa jaetaan valtaisa määrä opastusta ja "työpaikallekin sopivia" deepfake-videoita.