Petteri Pyyny
6. lokakuuta, 2020 13:18
Sarjassamme "ei näin". Iso-Britannian terveysviranomainen, Public Health England (PHE), on mokannut raskaasti Britannian virallisten koronavirustartuntojen tilastoinnissa ja ilmoituksessa.
Ongelma syntyi siitä, että PHE keräsi yksityisten laboratorioiden tekemien koronavirustestien tulokset haluamassaan muodossa. Tässä tapauksessa tuo muoto oli pilkkueroteltu tekstitiedosto, joka tunnetaan yleisesti nimellä CSV (comma-separated values, pilkkuerotellut arvot). Tässä ei ollut mitään ongelmaa, CSV-tiedostoja käytetään yleisesti tiedot välitykseen eri tavalla toimivien tietokantojen kanssa ja yksinkertaisuudestaan johtuen - tai sen ansiosta - CSV on yleensä erittäinkin pomminvarma tietomuoto.
Ongelman aiheuttikin viranomainen itse. PHE:n omat kehittäjät käyttivät CSV-tiedostojen keräykseen vanhaa Microsoft Excelin tiedostomuotoa, XLS:ää, johon CSV-muodossa saapuva data eri yksityisiltä toimijoilta automaattisesti siirrettiin.
Ongelma syntyi siitä, että vanha, vuonna 1987 käyttöön otettu XLS-tiedostomuoto tukee korkeintaan 65 000 tietueriviä. Uudempi Excelin itsensä käyttämä tiedostoformaatti, XLSX, jonka Excel otti käyttöön jo vuonna 2007, tukisi miljoonaa riviä. Kun 65 000 rivin raja tuli vastaan, katosivat sen jälkeen järjestelmään tuodut tiedot kuin se kuvaannollinen pieru Saharaan.
Ylipäätään taulukkolaskennan tiedostoformaatin käyttäminen datan talletukseen on vähintäänkin mielenkiintoinen veto. Kuten BBC:n artikkelissa todetaan, käytännössä jokainen lukioikäinenkin tietotekniikkaa opiskeleva tietää, että tiedon tallennukseen on olemassa rajaton määrä parempia tiedostomuotoja kuin Excel-taulukkolaskennan formaatti. Kevyetkin oikeat tietokannat soveltuvat tiedon tallennukseen selkeästi paremmin kuin XLS - ja siksi niitä käytetäänkin käytännössä aina.
Ongelmasta muodostui vielä kokoaan isompi siksi, että PHE välittää koronaviruksen ajantasaiset tartuntatiedot myös Britannian julkiselle terveydenhuollolle, NHS:lle. Tietojen katoamisen vuoksi NHS ei ole osannut ottaa yhteyttä positiivisen virustestin saaneisiin henkilöihin. Lisäksi myös maan oma tilastointi, jonka pohjalta mm. erilaiset liikkumisrajoitukset tehdään, pohjautuu PHE:n tuottamaan dataan. Joka oli siis Excelin käytön vuoksi tuhansien tapausten verran vinossa.
Möhläyksen vuoksi ainakin 15 000 ihmisen testitulokset puuttuvat julkisista tiedoista.