Blogikirjoitus - 10 Tammikuu 2017 15:11

Ajan nopea riento

Aloittelin vuonna 2008 kokopäivätyötä tallennuksen parissa ja silloin jo yli kaksikymmentä vuotta tietojenkäsittelyä tehneenä hämmästelin kuinka suuria tietomäärät isoissa koneissa olivat. Yhteen nopeaan levyyn mahtui silloin 300 gigatavua tavaraa ja hitaaseen peräti koko teratavu. Siis konkreettisesti ottaen 1000 levyn keittiökylmiön kokoiseen satoja kiloja painavaan koneeseen sai mahtumaan 225 teratavua. Tänä päivänä sama tila syntyy kymmenellä salamannopealla flash –levyllä, jotka vievät vajaat kymmenen senttimetriä räkkitilaa, ja tämä kehitys tapahtui kahdeksassa vuodessa. Moore siis elää ja voi hyvin; kapasiteetti kasvaa ja kasvaa hintojen samalla laskiessa. IT-budjetit pienenevät ja kaiken tiedon voi varmuuden vuoksi tallentaa ja CIO:t hierovat käsiään..... Mitä, eikö??

Tässä kohden tulee väistämättä mieleen harakka tervatulla sillalla. Kustannusnokka irtosi sillasta ja samalla hallintapyrstö tarttui kiinni. Ennen tallentaminen oli niin kallista, että yritykset harkitsivat tarkkaan mitä dataa pidetään tallessa ja missä. Bitit pidettiin hyvässä järjetyksessä ja niiden merkitys oli yleisesti ottaen tiedossa. Ei enää. Nyt dataa työnnetään pilviin tai pidetään omissa kannettavissa. Iso osa operatiivisesta datasta tulee ulkoisista lähteistä, sensoreista, somesta, toimitusketjusta ja sitä tulee paljon. Paljon on tässä niin iso massa, että mikään perinteinen järjestelmä ei sitä enää hallitse.

Noh, mikään ongelma ei ole niin iso etteikö sen insinööri ratkaise. Se data mikä ennen tallennettiin tiedostopalvelimille tai NAS-hakemistoihin viedään nykyään objektipohjaisiin tallennusratkaisuihin (OBS=Object Based Storage). Nämä ovat portaattomasti skaalautuvia exatavuihin asti (Exa = 1 000 petaa). Toisaalta suurta käsittelynopeutta vaativat järjestelmät eivät enää toimi perinteisillä SQL-kannoilla. Kuvaavasti uuden sukupolven kannat ovat nimeltään noSQL. Näitä kantoja taas ajetaan hajautetuilla palvelinlaitteisiin perustuvilla Hadoop-alustoilla.

Hyvä, nyt meillä on käsittelynopeutta ja riittävän iso varasto. Mutta tämäkään ei vielä riitä, koska dataa tulee liian monesta järjestelmästä, joiden tietosisältö on kirjavaa, somesta puhumattakaan. Tarvitaan vielä ainakin kaksi työkalua. Ensimmäinen niistä, perinteinen ETL (extract, transfer, load) lukee mahdollisimman monesta datalähteestä olennaista dataa ja yhdistelee niistä merkittävää sisältöä. Toinen tärkeä komponentti on tietosisältöä rikastava hakukone. Tämän hakukoneen tulee tunnistaa kaikki mahdolliset formaatit, puristaa niistä olennaiset hakukriteerit ja vielä mielellään luoda metadata objektin ympärille. Kaikki nämä palaset yhdessä luovat uuden maailman palapelin, josta kokonaiskuva alkaa hahmottua.

Kenen tulisi hallita tätä palapeliä? Kiintoisaa kyllä, tässä olennaisin tehtävä on käsitellä valtavia datamääriä ja muodostaa niistä merkityksellistä informaatiota. Jo IT-aikojen alusta tämä tehtävä on varattu nimikkeellle CIO eli Chief INFORMATION Officer. Aika usein tämä rooli on lipsahtanut kohti Chief Infrastructure Officeria, mutta nyt näyttää olevan aika palata tehtävän juurille.

Noin esimerkkinä Hitachin palapelin osien nimet ja linkit lisätietoihin:

Objektivarasto (OBS) = Hitachi Content Platform
Skaalautuva Hadoop = Hitachi Scale-out Platform
ETL –analyysityökalu = Pentaho
Rikastava hakukone = Hitachi Content Intelligence

Kirjoittaja on Ari Heiniö, CTO, Hitachi Data Systems

Seuraa Hitachi Data Systemsiä LinkedInissä

Hitachi Data Systems on yksi Ratkaisu17-tapahtuman pääkumppaneista.

Aiheet

Tietokone, Televiestintä, IT

Ajan nopea riento

Aiheet

Yhteyshenkilöt

Ari Heiniö