Elämme maailmassa, jossa uutta tietoa tuotetaan valtavasti. Sitä syntyy myös joka hetki käsittämättömiä määriä lisää. Tämä haastaa kykyä tunnistaa ja löytää olennaiset asiat informaatiotulvasta. Kliseisesti data on uusi öljy, mutta samalla tavalla kuin öljykin, data edellyttää jalostamista, jotta siitä saadaan hyöty irti.
Lähdimme Varmassa edistämään tiedon hyödynnettävyyttä, jotta meille kertyvä avoin tekstiaineisto saataisiin töihin. Tarkastelimme tarkemmin verkkopalvelumme kautta saapuneita sähköisiä kuntoutus- ja työkyvyttömyyseläkehakemuksia, jotka olemme käsitelleet vuosien 2016-2018 aikana. Hakemuksissa kerrotaan avoimilla tekstivastauksilla työhön, työolosuhteisiin ja työkykyyn vaikuttavia asioita. Hakemusdataa käsiteltiin anonyymisti. Dataa analysoimalla saimme lisätietoja ja pääsimme syvemmälle ilmiöihin, jotka johtavat työkyvyttömyyseläkkeelle ja kuntoutukseen erityisesti tietyissä ammattiryhmissä. Tutkimus on vielä meneillään, ja tulkitsemme parhaillaan tekoälyn ja datan hyödyntämisellä saatuja tietoja.
Mahdollisuudet ja kyky datan jalostamisen ovat kasvaneet teknologian kehittyessä, mutta kyky hyödyntää kertyvää informaatiota ei yksin riitä. Sen tueksi tarvitaan muun muassa suunnitelma ja visio tiedon hyödyntämisestä. Dataa on monenlaista, ja sen hyödynnettävyyteen vaikuttavat tiedon saatavuus, rakenne ja laatu.
Tietojärjestelmiimme kertyy paljon tällaista avointa tekstiaineistoa eli ei-rakenteellista informaatiota, jonka hyödynnettäväksi saaminen vaatii työtä. Lisäksi kaikkiin organisaatioihin kertyy monenlaista dataa eri tavoin saavutettavaan muotoon.
Olemme aiemmin tutkineet dokumenttiaineistoissa olevan tiedon laatua ja saavutettavuutta. Hakemusten analysointiprojektissa lähdimme kartoittamaan mahdollisuuksia, että jo olemassa olevaa sähköistä aineistoa muokataan tekstianalytiikan avulla saavutettavaksi. Hyödynsimme tähän koneoppimista.
Saatavuuden varmistamisen jälkeen työläs vaihe on tiedon muokkaaminen käsiteltävään muotoon. Miksi tiedon jalostaminen on mielekästä ja kiinnostavaa? Se auttaa meitä ymmärtämään ja selittämään aineistossa olevia ilmiöitä, joiden parissa työeläkeyhtiössä työskentelemme.
Lähdimme tunnistamaan edellytyksiä käytännön tekemisen ja kokeilun kautta. Ei ole aina itsestään selvää löytää ratkaisuja, jotka hyödyntävät tekstianalytiikkaa avoimien vastausten jäsentämisessä. Keskeinen asia, jonka etukäteen tunnistimme tuottavan haasteita, on datan laatu ja hyödynnettävyys. Kaikki mielenkiintoinen tieto ei ollut alun perin tehty tai suunniteltu siihen, että sen perusteella olisi tarkoitus tehdä analytiikkaa. Ensimmäiset havainnot liittyvät siihen, kuinka helposti dataa on saatavissa hyödynnettäväksi ja millaiset prosessit jatkojalostamista varten tarvitaan.
Datahankkeen keskiössä on se, miten data muuttaa tapaa toimia. Data itsessään ei tuo lisäarvoa ennen kuin sitä hyödynnetään. Yrityksen kyky hyödyntää dataa ei synny sattumalta, vaan se vaatii systemaattista ja määrätietoista visiota, jota käytännön kokeilut tukevat.