Kommende trender i katastrofegjenoppretting for Data Lakes
Stadig flere foretak går over til å plassere sine stadig større datavolum i Data Lakes i stedet for i ulike siloer. Denne metoden byr på mange fordeler for tilgang og forvaltning – ikke minst når det gjelder IT-sikkerhet og samsvar. Vår partner WANdisco bidrar i stor grad til dette med sine løsninger. I dette intervjuet snakker Katherine Sheehan, Senior Solutions Architect hos WANdisco, om aktuelle trender innenfor katastrofegjenoppretting og høy tilgjengelighetsgrad for lokale og skybaserte Hadoop Data Lake-implementeringer.
I de senere år har vi sett hvordan Hadoop har utviklet seg, og aksepten blant foretak har steget. Hvordan påvirker det katastrofegjenoppretting og strategier for stor grad av tilgjengelighet?
-Når det gjelder Hadoop-arbeidsbelastninger, er det tydelig at fremtiden ligger i objektlagring. Gartner Hype Cycle spår en massiv aksept for Hadoop i skyen for dataadministrering. For tiden bruker imidlertid mange foretak fortsatt lokale Hadoop-implementeringer i den daglige driften, slik at utviklingen mot skyen skjer mer gradvis.
Ettersom disse lokale Hadoop-plattformene ofte støtter kritiske arbeidsbelastninger, kan ikke-planlagt nedetid ha en betydelig innvirkning på resultatet til en bedrift. Dette har ført til stadig strengere Service Level Agreements (SLA) for tilgjengeligheten. I IT-avdelingen flytter disse SLA-ene fokus fra «hvordan vi kan gjenopprette våre data i et gjenopprettingsscenario» til «hvor raskt vi kan gjenopprette våre data i et gjenopprettingsscenario».
Jo mer data det er i et Hadoop-miljø, desto lengre tid kan gjenopprettingsprosessen ta. I mange tilfeller faktisk flere uker. For foretak med SLA, som måles i timer, er katastrofegjenoppretting og høy tilgjengelighetsgrad av avgjørende betydning. Det blir stadig mer tydelig i våre samtaler med kunder.
Katastrofegjenoppretting
Mange IT-avdelinger ser Open Source-verktøy som DistCp som attraktive alternativer for en effektiv katastrofegjenoppretting. Men er de egentlig egnet for store virksomhetsomfattende datamengder?
-Det er riktig at verktøy som DistCp er et effektivt utgangspunkt for Hadoop katastrofegjenoppretting. Denne batchbaserte tilnærmingen til databeskyttelse har imidlertid sine begrensninger – spesielt når det gjelder store datamengder.
Når det gjelder RPO [Recovery Point Objective, det vil si oppstarttiden etter at et IT-system eller en IT-infrastruktur har falt ut], må man først og fremst vite hva Open-Source-verktøy ikke kan. Hvis man for eksempel stoler på snapshots av Hadoop-data – det vil si den regelmessige sikkerhetskopieringen av data fordelt på ulike tidspunkt i løpet av dagen – mister foretaket muligheten til å gjenopprette alle endringer som er foretatt etter siste batch-vindu. I tillegg belaster det å ta snapshots av store datamengder omgivelsene vesentlig. Det kan også svekke produktiviteten til team som er i ferd med å bruke en dataklynge til analysearbeidsbelastninger.
Open-Source-tilnærminger til katastrofegjenoppretting krever som regel også manuelle, tidkrevende prosesser for å bygge opp en Hadoop-klynge på nytt og reaktivere den. Og mens hele klyngen er frakoplet, oppstår det potensielt store daglige kostnader for foretaket på grunn av tapt produktivitet, tapte salgsmuligheter eller til og med samsvarstap.
Hvordan møter foretak disse utfordringene?
-For å oppfylle krevende SLAer for tilgjengelighet og databeskyttelse kreves det vanligvis at man sikrer kontinuerlig tilgjengelighet, noe som medfører betydelige tekniske utfordringer for store Hadoop-arbeidsbelastninger.
Den vanlige tilnærmingen her er å fordele kopier av data på en eller flere clustere for å sikre at et utfall på ett sted ikke medfører datatap eller nedetid for hele analysetjenesten. Den største utfordringen ved slike fordelte, svært tilgjengelige konfigurasjoner er imidlertid datakonsistensen. Ettersom flere klynger arbeider med de samme dataene, må det sikres at endringer replikeres kontinuerlig på hvert sted. Det er ikke mulig med Open-Source-verktøy.
For mange virksomheter kan kommersielle tilbud som Cloudera Backup and Disaster Recovery (BDR) virke som en mulig løsning, men slike verktøy er i bunn og grunn bare enkle utvidelser av funksjonaliteten som allerede tilbys i DistCp. Derfor kan ikke Cloudera BDR og liknende verktøy møte utfordringen med å sikre konsistens på tvers av store og raskt vekslende datasett på flere klynger.
WANdisco Fusion er den eneste plattformen på markedet som muliggjør kontinuerlig replikering mellom clustere og sikre datakonsistensen. WANdisco Fusion bygger på en unik teknologi som heter DConE. En konsensusmetode holder Hadoop- og objektlagringsdata på ulike steder og i blandede lagringsmiljøer nøyaktig og konsistent tilgjengelige. Foretak kan benytte WANdisco Fusion for å sikre konsistente data mellom lokale lokalen Hadoop-clustere og skyinstanser og endog mellom multiskyplattformer.
Skyen i fremtiden
Du sa at Hadoop vil dominere skyen i fremtiden. Kan en hybrid katastrofegjenopprettingsstrategi for skyen gjøre denne overgangen lettere?
-Absolutt. Selv om vi vet at stadig flere foretak velger en ren skystrategi, så er mange ennå ikke klare til å frigjøre seg fra sine lokale Hadoop-implementeringer. Iverksettelse av et hybrid skyscenario med lokal produksjon og synkroniserte skyoperasjoner tilbyr den optimale løsningen for dette. Ved å sikre konsistens i lokale og skybaserte datasett, kan foretak kjøre programmer og analyser på plattformen som passer best til deres behov. Når de er klare til å flytte helt over til skyen, så er den nyeste versjonen av dataene deres allerede der, klare til bruk.
Og det er ikke bare en teori. Noen av verdens største selskaper bruker allerede WANdisco Fusion til hybrid- og multiskybasert katastrofegjenoppretting for å beskytte data. Da for eksempel AMD ville sikre at deres halvlederproduksjon fortsatt skulle kunne pågå når det primære datasenteret gikk ned, ga de WANdisco i oppdrag å lage en løsning.
WANdisco Fusion har siden da ikke bare hjulpet AMD med å overføre 100 TB lokale data avbruddsfritt til Azure, men også gjort det mulig å replikere produksjonsdata løpende i skyen. Fordi dataene er de samme i begge miljøer, kan den datastyrte produksjonsprosessen til AMD fortsette også dersom hovedkvarteret deres faller ut. Detaljene og den aktuelle statusen til prosjektet kan man også se i en aktuell video.
Hva blir neste skritt, når beslutningstakerne ønsker å vite mer om hvordan de kan oppnå maksimal tilgjengelighet til sine forretningskritiske Hadoop-tjenester?
-Hvis man vil vite mer om LiveData-strategier, er videoen med vår VP Product Management, Paul Scott-Murphy, en god start. Avtal gjerne et møte med en av ekspertene hos Orange Business også.
Om forfatteren
Katherine Sheehan er Senior Solutions Architect hos WANdisco og ansvarlig for utviklingen av det nordamerikanske Channel-partnerskapet. – Intervjuet ble gjennomført av DISCOtecher, WANdiscos Director Product & Channel Marketing, som bl.a. er ansvarlig for selskapets blogg.