Blogikirjoitus -
Tietovarastointi: The Next Generation
Star Trekin uuden sukupolven tarina loppui jo vuonna 1994, mutta tietovarastoinnin uusi sukupolvi on ajankohtaista nyt. Kehittynyt raportointi ja analytiikka ovat oman menestyksensä uhreja. Kasvaneet tietomäärät ja kohonnut vaatimustaso ovat johtaneet käyttökokemuksen rapistumiseen. Big Data -tyyppiset sovellukset tuovat tarpeen kokonaan uusille tietotyypeille.
Paradoksi – menestyksen rapauttama käyttäjäkokemus
Menestys kehittyneen raportoinnin analytiikan hyödyntämisessä on luonut paradoksin. Tiedon määrän kasvaessa ja käyttäjien vaatimustason noustessa ratkaisut eivät enää skaalaudu tarpeiden mukana, kuutiot eivät mahdu muistiin eivätkä eräajoikkunat enää riitä. Vastausajat kasvavat sekunneista minuutteihin ja tunteihin. Ylläpitotyö ja infrastruktuuri-investoinnit kasvavat. Kehitystyön sijaan optimointi, partitiointi, indeksointi ja muut, muodostuvat päätyöksi. Laiteinvestointien – ja sen mukana myös ohjelmistoinvestointien – kasvu ei tuo ratkaisua:
- Esimerkki 1: Merkittävä, kansallinen, erittäin kilpailuilla kuluttajamarkkinoilla toimiva yritys analysoi asiakkaidensa käyttäytymistä toteuttaakseen kohdennettua ja toimivaa markkinointia. Analyytikon tehtävä on asiakassegmentointi. Ketkä ovat oikea kohdeyleisö uudelle tarjonnalle tai keille tulee kohdentaa kilpailijan tarjousta vastaan suunnattu hinnoittelu? Aamukahvin jälkeen käynnistyy yli miljoonan asiakkaan kantaa analysoiva kysely. Usein kyselyn läpimeno kestää 8-10 tuntia. Kun se valmistuu ilta kuuden aikoihin, osa kyselyn pohjana olevasta logiikasta on jo unohtunut, eikä tarkentaviin kierroksiin yleensä ole enää aikaa.
- Esimerkki 2: Pörssinoteeratun yrityksen tilinpäätös edellyttää myynti- ja tuotantotietojen kokoamista raportointia varten. ETL-siirto operatiivisista järjestelmistä staging-alueella, transformaatio mukaanlukien. summatasojen muodostus ja siirto tietovarastoon ja raportointikuutioiden muodostus kestävät neljä kertaa vuodessa useita viikkoja. Kullakin kertaa prosessiin sitoutuu merkittävä määrä asiantuntijatyötä samalla kun normaali analytiikka ja toiminnan kehittäminen katkeaa.
Analyysin syvenemisen lisäksi tiedon muoto monimutkaistuu. 90% digitaalisesta tiedosta on syntynyt viimeisen kahden vuoden aikana ja 80% siitä on strukturoimatonta – tekstiä, lokitietoa, dokumentteja, ääntä ja kuvaa. Yhä useammin osa tästä tiedosta on saatava osaksi yrityksen tietovarastoa. Vai kannattaako call centeriä optimoida litteroimatta puhelinkeskusteluja ja analysoimatta näitä?
Tietovarastoinnin modernisointi edellyttää uudenlaista arkkitehtuuria, kuten kykyä monimuotoisen tiedon käsittelyyn ja 10-100 -kertaista suorituskykyä samalla, kun käyttö on aikaisempaa yksinkertaisempaa ja kustannustehokkaampaa.
Miltä näyttää tietovarasto 2.0
Valtaosa nykyisistä tietovarastoista perustuu edelleen 30 vuotta sitten kehitettyyn tapahtumankäsittelyyn tarkoitettuun lähestymistapaan ja on optimoitu tiedon eheyden säilyttämiseen suurella volyymillä yksinkertaisia tapahtumia. Tietovarastoinnin tarve on kuitenkin mennyt toiseen suuntaan. Monimutkaiset kyselyt alati kasvavaan tietomäärään yleistyvät.
Uudet ratkaisut vaativat uutta arkkitehtuuria, kuten analyyttista tietovarastoa. Rinnakkaiset (Pure Data for Analytics, o.s. Netezza) tai sarakepohjaiset suurta keskusmuistia ja rinnakkaisuutta (DB2 BLU) hyödyntävät tietovarastot pystyvät kertaluokkia parempaan tehoon huomattavasti aiempaa yksinkertaisemmalla toimintatavalla.
Uuden sukupolven tietovarasto koostuu kahdesta osasta: Hadoop:iin pohjautuvasta vastaanottoalueesta ja analyyttisesta tietovarastosta.
Vastaanottoalue kykenee käsittelemään kaikentyyppistä tietoa, sekä perinteistä strukturoitua SQL:llä käsiteltävää tietoa että myös strukturoimattomia tietoja. Vastaanottoalue muuntaa eri lähteistä tulevan tiedon ja siirtää strukturoidun SQL-tyyppisen informaation analyyttiselle tietovarastolle. Vastaanottoalue tarjoaa Hadoopin rajapintojen lisäksi SQL-rajapinnan (BigInsights: BigSQL), joka mahdollistaa SQL-pohjaisten analytiikkavälineiden hyödyntämisen.
Koska eteenpäin siirrettyä tietoa ei poisteta, muodostuu vastaanottoalueesta historiatiedon varasto, jota voidaan työstää samoilla välineillä kuin analyyttistä tietovarastoa. Analyyttinen tietovarasto tarjoaa äärimmäisen suorituskyvyn runsaasti käytetylle tiedolle ja monimutkaisille kyselyille.
Entä sitten? Jatketaanko pientä säätämistä vai korjataanko rapistunut käyttäjäkokemus ja pidetään kiinni kaikesta tiedosta jota tarvitsemme?
Kirjoittaja:

Information Management Sales Executive, IBM
Aiheet
- Tietokone, Televiestintä, IT
Kategoriat
- big data