Den logiske fremtiden er virtuell

7 min read

Øyvind Remme NBA

 

Øyvind Remme, sjefsarkitekt i Affecto

 

Datavarehuset blir i fremtiden kun én av mange datakilder for virksomhetens analyser og rapporter, og brukerne vil forholde seg til et «logisk datavarehus». Det er datavirtualiseringsverktøyene som gjør dette mulig. Datavirtualisering er betegnelsen på en type verktøy som tilgjengeliggjør virksomhetens data gjennom et felles, logisk grensesnitt, samtidig som det gir IT omfattende styring og kontroll med bruken. BI-verktøyene vil kunne hente ut data via datavirtualiseringslaget som om det skulle vært et fysisk datavarehus.

Bruken av Business Intelligence har økt betraktelig innen de fleste virksomheter, og datavarehuset blir mer og mer virksomhetskritisk. Dessverre har datavarehuset også blitt en flaskehals. Strømmen av nye og endrede informasjonsbehov er overveldende, og datavarehusavdelingen klarer hverken å levere raskt nok eller å imøtekomme alle behovene. Men verden går raskere og informasjon er ferskvare. Brukerne kan ikke lenger akseptere at det tar mange uker, ofte flere måneder, å få tilgang til en ny datakilde eller et nytt dataelement. Da er konkurransefortrinnet svekket, eller muligheten allerede borte.

Jeg beskrev denne problemstillingen i forrige innlegg – Har du murt igjen datahvelvet? – som for øvrig omhandlet hvordan man gjennom et relativt enkelt teknologibytte kan forbedre ytelsen på datavarehuset med opp til hundregangen (noen har også takket for filmanmeldelsen). Denne gangen skal jeg beskrive et regimeskifte innen BI, som vi i Affecto mener vil fjerne implementeringsflaskehalsen og kan revolusjonere samarbeidet mellom forretning og IT.

Prinsippet er knyttet til det Gartner kaller «det logiske datavarehuset», hvor den viktigste erkjennelsen er at brukerne må få tilgang til data også utenom datavarehuset. Hodepinen til IT er å tilgjengeliggjøre dataene innenfor kontrollerte rammer, mens for brukerne dreier det seg om at dataene de får tilgang til må tolkes og brukes rett. Nå begynner flere programvareleverandører innenfor dataintegrasjon å få modne løsninger som understøtter disse behovene. Området har fått betegnelsen datavirtualisering (for oss med et snev av dysleksi: virtualisering – ikke visualisering), og dette er teknologien som gjør det mulig å etablere logiske datavarehus. Figur 1 viser vår overordnede referansearkitektur for det logiske datavarehuset:

 

ORE Fig1

Figur 1: Overordnet arkitekturskisse for det logiske datavarehuset

 

Om vi begynner ytterst, så viser arkitekturskissen hvordan de forskjellige BI-verktøyene og bruksområdene får dataene sine via et felles virtuelt datalag. Datavarehuset kan godt være den fysiske plasseringen til mesteparten av dataene som benyttes av BI-løsningene, men dette oppsettet gjør det mulig å kombinere med data fra andre kilder, som kildelaget illustrerer. Innerst, mellom kildene, har vi tradisjonell dataintegrasjon, som typisk dreier seg om synkronisering av stamdata mellom systemene (MDM), samt fysisk lasting av data inn i datavarehuset (ETL).

Det logiske datavarehuset erstatter altså ikke det fysiske datavarehuset – det utvider det.

Alle overnevnte komponenter er viktige for det logiske datavarehuset, men det som er nytt for de fleste, er datavirtualiseringslaget. Datavirtualisering dreier seg om ett felles datagrensesnitt med rollestyrte bruksrettigheter og tilgang, noe som sikrer raskere og mer smidig tilgang til virksomhetens data, samtidig som det gir IT full kontroll på bruken. Et typisk oppsett vil være å gi ordinære brukere tilgang til kvalitetssikret datalogikk og tjenester, mens betrodde datakyndige brukere gis utvidede tilganger og rettigheter til å lage datalogikk (logiske transformasjoner).

Datavirtualiseringen er et overbygg som gjør det mulig å supplere med data fra andre kilder og har således potensial til å fjerne flaskehalsen og samtidig løse floken mellom forretning og IT. Den typiske konflikten mellom datavarehusmiljø og analytikermiljø er kanskje det beste eksemplet på denne floken. Dragkampen mellom disse, i forhold til tilgang og bruk av dataene, har vært en kontinuerlig konflikt så lenge datavarehuset har eksistert og vært forvaltet av IT. På innsiden er det ikke så vanskelig å forstå begge sider: IT har krav på seg til å sikre rett datakvalitet, driftsstabilitet og ytelse, samt at regler og retningslinjer følges. Analytikerne har på sin side behov for å videreutvikle og forbedre sine analysemodeller. I den prosessen har de behov for et stort utvalg av variabler. Noen av variablene vil vise seg å være signifikante, mens andre ikke. Et viktig poeng er at det ikke kan vites på forhånd. Derfor er det også upraktisk, for ikke å si uholdbart, å måtte bestille disse variablene via datavarehuset for å kunne benytte dem i modelleringen. Figur 2 viser datavirtualiseringslagets rolle som datagrensesnitt for analytikernes datatilrettelegging:

 

ORE Fig2

Figur 2: Datavirtualiseringslaget fungerer også som datagrensesnitt for analytikernes eksperimenterings- og modelleringsbaser (Analytical Sandboxes). Logiske datatransformasjoner (i blått), som etableres i virtualiseringslaget, kan siden gjøres om til fysiske transformasjoner i datalasten til datavarehuset (dersom det viser seg å bli et permanent behov som ikke kan/bør forbli virtuelt).

 

Gjennom datavirtualiseringslaget kan analytikerne få tilgang til datakildene og muligheten til å kombinere data fra datavarehuset med data fra andre systemer i sin analytiske database (Analytical Sandboxes). De kan utvikle og teste ut nye modeller uten å måtte vente på at variablene blir tilgjengelige via datavarehuset. Samtidig beholder IT oversikten og kontrollen. Avhengig av typen verktøy, tilbys det forskjellige muligheter for å begrense belastning av kildesystemene, og de fleste kan enkelt konfigureres med statisk eller inkrementelt hurtigbuffer.

Beslutningen om å dra de nye dataene gjennom datavarehuset bør ikke tas før etter å ha testet og fått erfaring med dem. I første omgang kan det ofte være riktig å hente dataene rett fra kilden. I noen tilfeller er behovet et engangstilfelle, eller et sjeldent behov, og da er det ineffektivt og for kostbart å dra det via datavarehuset (i tillegg til at en del data ikke hører hjemme der). Dersom det viser seg å bli et langvarig eller permanent behov, så kan logikken flyttes og tilpasses en datavarehuslast på et senere tidspunkt, og da allerede behovstestet og kvalitetssikret. Dette sikrer både raskere implementeringstid og reduserer prosjektrisiko. Det vil i mange tilfeller være naturlig å benytte en komplett dataintegrasjonsplattform som inkluderer datavirtualisering, der de logiske transformasjonene enkelt kan gjenbrukes eller konverteres til fysiske transformasjoner i en dataintegrasjonsjobb, som illustrert med stiplet pil i figur 2.

Datavirtualiseringsverktøy har abstraksjonslag/semantikklag som øker brukervennligheten, men på grunn av kildesystemenes kompleksitet og varierende kvalitet og konsistens, vil det i praksis ikke være mulig å skjerme superbrukerne (de med rettigheter til å etablere logikk og tjenester på datakildene) for all kompleksitet. Det er derfor en viktig forutsetning at analytikerne tar ansvar for å bygge opp rett kompetanse og kildespesifikk dataforståelse. Det er riktignok mulig å etablere et forent logisk datalag (Federated Enterprise Model) i virtualiseringslaget, og det er absolutt en sentral del om man søker å etablere et stilrent logisk datavarehus, men jeg tror de færreste virksomheter er modne nok til å ta dette spranget. Det krever modenhet innen Enterprise Information Management. Det er min påstand at dersom man satser på å etablere et helt enhetlig logisk lag (én sannhet), ender man opp med omtrent den samme flaskehalsen som med et rent fysisk datavarehus.

Nettopp på grunn av de ulike kildesystemene med varierende konsistens og datakvalitet, tilbyr flere av datavirtualiseringsverktøyene også funksjonalitet for dataprofilering. Resultatet av dataprofileringen kan være nyttig input til etableringen av de logiske transformasjonene, og verktøyet bør således også ha et funksjonsbibliotek som inneholder relevante datakvalitetstransformasjoner.

I forrige innlegg beskrev jeg hvordan bruk av en Data Warehouse Appliance kan øke datavarehusets ytelse drastisk. Dette kan man også dra nytte av ved datavirtualisering, der hurtigbufring til en Appliance kan sikre nesten like god ytelse virtuelt som fysisk (siden data i praksis lagres fysisk i bakgrunnen som en usynlig prosess). Dette muliggjør videre implementasjon av permanente virtuelle datamarts, som gjør at behovet for fysiske datamarts reduseres. Virtuelle datamarts har den fordelen at man kan se resultatet av prototyping umiddelbart, kan levere langt raskere, kan kombinere data i og utenfor datavarehuset og at man kan konvertere dem til vanlige fysiske datamarts i datavarehuset ved behov.

Mitt tips til slutt er: La ikke idealisme komme i veien for praktisk bruk av datavirtualisering. Det er fortsatt fornuftig å jobbe målrettet med en forent virksomhetsmodell, men vær realistisk, for du vil aldri oppnå én sannhet på alt, og brukerne må ha data nå!

Den logiske fremtiden er virtuell: Det logiske datavarehuset krever datavirtualisering.

About Øyvind W. Remme

Øyvind W. Remme er partner i NextBridge Advisory AS. Han har over 20 års erfaring med Business Intelligence og Analytics innen et stort spekter av bransjer, bruksområder og teknologier. Med brennende interesse for faget, har han holdt en rekke foredrag og kurs, blogget og skrevet artikler, samt vært styreleder i Dataforeningens faggruppe for Business Intelligence & Analytics.