Blogginlägg -

Good enough. Hur bra datakvalité måste en BI-lösning ha för att skapa värde?

Just nu, i mitt arbete som projektledare inom Business Intelligence, aktualiseras ofta ämnet datakvalité och därför känns det passande att dela mina funderingar kring det med er. Datakvalitéfrågor är något som flera gånger har överraskat Business Intelligence- och data warehouse-projekt långt in i utvecklingsarbetet. Detta sker oftast när lösningen skall valideras mot ett ”facit” av något slag, vilket allvarligt kan skada lösningens förtroende även efter att eventuella korrigeringar genomförts. Jag tror många av de här problemen kan härledas till två faktorer, dels en alldeles för snäv definition av datakvalité och dels ett antagande om att datakvalitéproblem skall lösas av källsystemen.

bi-datakvalitet

Som bilden ovan visar brukar man bryta ner datakvalitébegreppet i sex dimensioner.

  1. Fullständighet – finns den nödvändiga informationen i fälten?
  2. Konformitet – följer data uppsatta regler?
  3. Enhetlighet – är data representerat på samma vis i verksamheten?
  4. Upprepningar – är data representerat en gång och bara en gång?
  5. Integritet – är relationer mellan data definierade och konsekventa?
  6. Träffsäkerhet – är data korrekt?

Det fina med dessa dimensioner är att de är mätbara och sådant tycker vi som jobbar med Business Intelligence om. Det kan förvisso kräva en del arbete att sätta upp ett ramverk för att mäta projektets datakvalité, men med ett långsiktigt perspektiv är jag övertygad om att man kan räkna hem den investeringen. Med ett ramverk för att övervaka en BI-lösnings datakvalité går det även att diskutera datakvalitetens utveckling över tid och dra slutsatser kring huruvida den har förbättras eller inte.

Transparens i det här ämnet kan även hjälpa till att skapa uppmärksamhet och energi kring datakvalité som annars allt för lätt kan avfärdas som ogripbart och någon annans problem.

Skyll inte på källsystemet!

I diskussioner kring datakvalité kommer frågan om vems ansvar det egentligen är att hålla god datakvalité i verksamhetens rapportering ofta upp. Här kan det vara bekvämt att skylla på källsystemen. Att de alltid är källan för dålig datakvalité och därmed är det källsystemägarnas och användarnas ansvar att städa. Det kan förvisso vara sant att rena systemfel och inmatningsfel gärna skall korrigeras uppströms i källsystemen, men många av de mer komplexa problemen kring datakvalité faller däremot på BI-teamets bord.

Källsystemen äger inte datakvalitétsproblem som sträcker sig över flera system utan det gör BI-projektet. Ett källsystem behöver säkerställa att all dess data i sin egen silo är korrekt, inget mer. Vanliga exempel är att flera olika system har information om verksamhetens kunder utan någon universal identifierare eller att olika system håller ordning på olika produkter som man erbjuder kunderna. I bästa fall finns det en integrationsmotor som håller ihop den här informationen (läs gärna Magnus Hagdahls blogginlägg i ämnet), men annars är det BI-teamet som är ansvariga för upprättandet av konforma dimensioner som är enhetliga över hela verksamheten oavsett källsystem.

Enligt samma devis kan olika delar av verksamheten ha goda skäl att extrahera data med olika villkor och mäta en och samma affärsprocess ur flera olika perspektiv. Vilket i sin tur resulterar i snarlika men inte identiska resultat. Dessa avdelningar har sällan till uppgift att etablera enhetliga definitioner för attribut och mätvärden utan även den frågan är något som BI teamet äger även om de givetvis behöver verksamhetens engagemang för att etablera en lösning på problemet.

För att återknyta till hur bra datakvalité en lösning måste ha för att skapa värde så är mitt svar att det beror på lösningens natur. Är det en lösning som syftar till att visualisera övergripande trender eller hitta avvikelser i en datamängd så är datakvalitétskravet lägre än om det är en lösning kopplad till verksamhetens officiella rapportering. Helt oavsett datakvalité så har en BI-lösning bara ett värde då den utgör ett beslutsunderlag som verksamheten faktiskt vågar och kan agera på.

Slutligen vill jag förmedla att datakvalité är inget man kan hantera genom punktinsatser utan är ett långsiktigt engagemang. Identifiera den där domänen som är helt central för er verksamhet och börja där. Ring om ni behöver hjälp!

Jonas Wahlström, Business Intelligence Consultant, Enfo Pointer

Läs mer:
Magnus Hagdahls blogginlägg

Ämnen

  • Datorer, datateknik, programvaror

Kontakter

Pelagia Wolff

Presskontakt Kommunikationsdirektör +358 50 366 0878