Old dog, New tricks!

3 min read

 

The Swiss army knife for Big Data zoo survival.

Big Data! Dette er to ord som har vært brukt i en årrekke for å beskrive et scenario hvor det er så store mengder av data at relasjonsdatabasene ikke vil være i stand til å håndtere dem. I tillegg er det snakk om en dramatisk endring i hvordan vi vil lagre og bruke data. Utfordringen i det nye systemlandskapet har vært, at kjent og kjær teknologi må erstattes med ny og radikalt forskjellig teknologi.

are

 

Are Skaar, Brobygger og fagansvarlig for Microsoft i NextBridge Consulting

 

 

 

Big Data dyrehagen består av dyr som griser, bier, elger, harer, elefanter og en rekke andre. For at teknologien effektivt skal kunne tas i bruk, kreves det at brukere av datalagring og prosesseringstjenester bygger kompetanse på flere «arter» innenfor Big Data dyreriket. Adopsjonen i markedet forhindres ytterligere av at de fleste verktøyene krever at brukerne innehar en høy grad av teknisk og funksjonell forståelse for å kunne benytte teknologien.

Den gamle hunden jeg refererer til i overskriften av bloggen heter SQL. Denne har vært med oss siden tidlig på 70-tallet, og ble en standard i 1986, altså 30 år siden. De fleste verktøy for analyse og rapportering støtter SQL, som er en standard «alle» fagfolk forholder seg til. I tillegg er det mange forretningsbrukere som kjenner SQL. I den siste iterasjonen av Microsofts SQL Server, har de inkludert et produkt kalt PolyBase. Overordnet kan PolyBase beskrives som en bro mellom Big Data teknologi og SQL.

are-blogg

PolyBase gir brukere mulighet til å benytte SQL på toppen av Big Data teknologier på samme måte som de i 30 år har brukt SQL mot relasjonelle databaser. I tillegg er PolyBase totalt transparent for sluttbrukeren. Man gjør SQL spørringer mot en SQL Server, slik man alltid har gjort, mens PolyBase oversetter SQL til å aksessere Big Data teknologien på en mest mulig effektiv måte. Dette vil i praksis si at sluttbrukeren kan bruke eksisterende verktøy og metodikk mot Big Data teknologi uten å bry seg om, eller vite at det er det som faktisk skjer.

are-blogg2

 

 

 

 

 

 

 

 

 

 

I skrivende stund er det begrenset hvilke Big Data teknologier som kan benyttes med PolyBase, men de viktigste er på plass. PolyBase er kompatibelt med Hadoop-distribusjoner fra både Hortonworks og Cloudera i tillegg til Azure Blob Storage. Om kort tid vil også Azure Data Lake og HD Insight støttes fullt.

PolyBase støtter både lesing og skriving ved hjelp av SQL, og dette gir teknologien et bredt bruksområde.

are-blogg3jpg

 

  • PolyBase kan brukes som et verktøy i en klassisk ETL prosess. Big Data teknologi kan da benyttes som en ren kilde, eller man kan bruke Hadoop i forbindelse med vask og rens av data, og laste det inn i et klassisk datavarehus.
  • Siden PolyBase er transparent for sluttbrukeren kan man analysere data som om de var tabeller i relasjonsdatabasen. Analyse og rapportering kan gjøres uavhengig av om sluttbrukerverktøyet heter Excel, Tableau, Qlik eller Powerview.
  • Å lagre store mengder lite brukte data i et datavarehus er ineffektivt og kostbart. PolyBase kan brukes til å flytte data man ikke trenger i datavarehuset til en billigere og mer hensiktsmessig plattform, men samtidig holde data tilgjengelig for rapportering og analyse.

I ordtaket heter det at man ikke kan lære en gammel hund nye triks. Ordtaket gjøres regelrett til skamme i denne settingen. Gjennom PolyBase har den gamle hunden SQL lært seg de nyeste og kuleste triksene, og i tillegg utfører den triksene grasiøst med en klasse de øvrige dyrene ikke er i nærheten av å oppdrive. Gjennom å utvide funksjonaliteten i SQL til sømløs integrasjon med Big Data teknologier har Microsoft virkelig videreutviklet SQL til en svært kapabel Swiss Army Knife.

Hilsen Are

 

About Arne Rosness

Arne er redaktør av BI-blogg.