Back-up: tape is geen must meer

Data die snel nodig zijn staan op disk, andere gegevens verhuizen na verloop van tijd naar tape. Zo hebben we het de afgelopen 50 jaar gedaan, maar daar komt verandering in. Disks blijven het hart van de opslag vormen, maar duiken daarnaast op in de achtergrond. Solid state disks (SSD’s) worden steeds vaker gebruikt voor gegevens die heel snel nodig zijn.

“In de praktijk houden bedrijven hun gegevens 12 weken lang op het snelste platform, daarna volgt een archiefleven van gemiddeld 7 jaar”, schrijft Bill Andrews bij online magazine Datamation. De CEO van Exagrid Systems en schrijver van drie boeken over back-up stelt dat daarbij veel data worden gebruikt. Te veel. “Bij dat alles wordt niet echt zuinig omgesprongen met de beschikbare ruimte. Ga je tellen hoe vaak gegevens dubbel worden opgeslagen dan zie je dat van elk record 40 tot 100 kopieën zijn gemaakt. Die worden allemaal opgeslagen, de meeste op tape.”

De kosten van tapeopslag zijn niet zo hoog, dus is het niet heel erg als gegevens een aantal malen op tape staan. Maar nu alle opslag – ook de back-up – steeds meer naar disk verhuist, gaan de kosten wel mee­spelen. Het is zaak om het aantal kopieën van data tot het uiterste minimum te beperken.

 

Disks kruipen binnen

De vervanging van tapes door disks gebeurt niet van het ene op het andere moment. De laatste tien jaar zijn organisaties overgestapt van het simpele two-tier model (met 2 lagen) naar een multi-tier model (met meer lagen). Het tweespan disk-tape wordt daarbij vaak uitgebreid tot disk-disk-tape; er wordt dus effectief een laag met diskopslag tussen het actieve en het achtergrondgeheugen gezet.

Die disklaag dient om de laatste back-up te herbergen. Omdat disks toch redelijk kostbaar zijn – ze draaien de hele dag dus hebben ook de hele dag energie nodig – kiezen bedrijven ervoor om een beperkte disk-back-up in huis te hebben. De data blijven daar gemiddeld 2 weken staan en verdwijnen dan naar de onderste (tape) laag. De disks kunnen weer voor nieuwe back-ups worden gebruikt.

Andere modellen zijn bijvoorbeeld SSD-disk-tape of SSD-disk-disk-tape, waarbij de meest actuele data een plaatsje krijgen op SSD, terwijl de kopieën en de back-ups langzaam naar de onderste tape-laag glijden. Hoe snel dat gebeurt is afhankelijk van de instellingen die de gebruiker kiest. Sinds kort zijn er ook aanbieders die alle geheugens uitvoeren als SSD of flash, zodat de toegangssnelheid over het hele opslagsysteem vrijwel constant is.

 

Deduplicatie

Om het aantal kopieën van data in een omgeving binnen de perken te houden, wordt gebruik gemaakt van deduplicatie. Via analyse wordt gekeken waar de kopieën staan en waar mogelijk wordt het teveel opgeruimd. “In de praktijk kan het rendement erg groot zijn, bijvoorbeeld een reductie met een factor 20 van de benodigde schijfruimte”, schrijft Andrews. De kunst is om alleen die data te kopiëren bij het maken van een back-up die ook daadwerkelijk zijn gewijzigd. Andrews: “Dan worden er geen extra kopieën gemaakt en dat scheelt een hoop. In de praktijk verandert zo’n 2 tot 3 procent van je data elke week. Dit is natuurlijk wel afhankelijk van de branche: grotere of kleinere percentages zijn goed mogelijk.”

Door het terugbrengen van de hoeveel data die moeten worden opgeslagen neemt ook de benodigde diskcapaciteit af. “Bij een reductie met een factor 20 komen de kosten van de disks ongeveer in de buurt van de kosten van tape. Voor veel ondernemers is dat een aantrekkelijke gedachte”, meent Andrews.

 

Veel resources nodig

Deduplicatie is een taak die nogal veel vergt van de computerresources. Alle data zullen moeten worden vergeleken om de dubbele kopieën eruit te halen. Dat kost tijd die niet gebruikt kan worden voor andere werkzaamheden zoals het maken van de back-ups zelf. Andrews: “Het praktische effect is dat de back-upprocedure een stuk langer gaat duren. In het ongunstigste geval wordt de tijd zo lang, dat het niet meer mogelijk is om een back-up te maken.

Sommige gebruikers kiezen voor inline-deduplicatie, waarbij de data die naar disk worden gestuurd worden geanalyseerd terwijl ze binnenkomen. “Er wordt dan een vergelijking gemaakt met de data die al aanwezig zijn. Dat is een intensief proces, dat soms veel tijd kan vergen. Een alternatief is, om de binnenkomende data meteen weg te schrijven en pas later te kijken of er een dubbele kopie aanwezig is. Die wordt dan op dat moment weggehaald”, zegt Andrews.

 

Een tweede overweging is, dat het dedupliceren langer kost naarmate er meer data aanwezig zijn. Een klein bedrijf met slechts een paar disks kan deze heel snel laten doorzoeken naar kopieën, bij grote ondernemingen met een veelvoud van dat aantal neemt de tijd ook navenant toe.

Op een bepaald moment is het niet meer verantwoord om de eigen apparatuur zelf al het werk te laten doen, maar dient een beroep te worden gedaan op een aparte deduplicatie-server. Die opzet moet het tijdverlies binnen de perken houden. Ook dan kan blijken dat de datahoeveelheid ook te groot wordt voor die aparte server en zal er een upgrade moeten plaatsvinden.

Het voorgaande is opgeschreven vanuit een ‘monolitische’ gedachte, met een centrale computer, een centrale controller voor een groot aantal diskdrives en een daarnaast staande deduplicatieserver. Andrews: “Het heeft wel degelijk zin om anders te gaan denken, meer in de richting van een grid. Dat bestaat dan uit kleine eenheden, elk met een eigen processor, controller en bescheiden hoeveelheid disks. Die eenheden worden via een netwerk samengesmeed tot een groot opslaggeheel.”

 

Het maken van een back-up is één ding, het terugzetten van de gegevens na een calamiteit is de andere kant van de medaille. Het kost vooral tijd, zeker als een back-up bestaat uit een hoofdmoot met een hele riedel veranderingen daarop. Bij het terugzetten zal de verknipte datahoeveelheid weer teruggebracht moeten worden tot een hecht geheel, dat dan teruggezet kan worden. Dit laatste is het geval bij de inline deduplicatie.

Wordt er daarentegen meteen naar disk geschreven met een latere weghaalactie van de kopieën, dan staan de meest recente gegevens allemaal klaar. Ze kunnen snel worden teruggezet. Bij gebruik van een grid kunnen de data ook snel teruggehaald worden, omdat elk onderdeel van het grid actief is op een deel van de data.

Doordat niet meer met tape wordt gewerkt maar met snelle disks, is er geen hinder van de traagheid van de tapes. Vanaf disk zijn gegevens met een veel kortere wachttijd terug te halen dan van tape.

 

Steeds minder bekend

Er is nog een reden waarom bedrijven voor de back-up van hun data overstappen van tape op disk, namelijk de achteruitgaande kennis van het eerste medium en het feit dat leesapparatuur steeds minder vaak beschikbaar is. “De kennis omtrent tapes begint uit te dunnen bij de bedrijven in Nederland. Bovendien grijpt men liever naar meer toegankelijke opslagsystemen die ook beter passen bij gevirtualiseerde servers”, zegt Robbert Brans, managing director van Attingo Data­recovery uit Nieuw-Vennep.

Brans: “Vaak liggen de tapes keurig opgeborgen in een kast. Netjes gelabeld op een rij. Het ziet er uit als een prachtig stukje archief, maar wat als de nood aan de man komt? Hoe makkelijk is het dan om alle gegevens terug te zetten? Het komt maar al te vaak voor dat een tape van 10 jaar geleden helemaal niet meer gelezen kan worden. De apparatuur is er niet meer. En mocht de tapedrive er nog wel zijn, dan is het maar helemaal de vraag of de juiste software nog aanwezig is.” Tapes worden nog wel veel gebruikt, omdat het medium goedkoop en ook stabiel is. “We krijgen geregeld tapes binnen, waarvan de eigenaren de apparatuur niet meer hebben om ze te lezen. Het beste wat we dan kunnen doen is datamigratie: zet de gegevens van tape over op disk, zodat ze in elk geval nog gebruikt kunnen worden.”

 

Doorbraak in Flash-kosten

SanDisk maakt het de producenten van harde schijven lastig met zijn nieuwe Infiniflash-systemen. Met een prijs tussen de 1 en 2 dollar per gigabyte worden deze flash-systemen ook voor minder tijdkritische toepassingen een serieus alternatief. Vergeleken met harde schijven wordt de opslagdichtheid een factor 5 verbeterd, nemen de prestaties een factor 50 toe, ligt de betrouwbaarheid vier maal zo hoog en neemt het energieverbruik 80 procent af. SanDisk is niet zuinig in zijn claims voor de nieuwe Infiniflash-systemen, die geheel uit flashgeheugen bestaan.

Daarbij heeft Sandisk een prijsdoorbraak weten te realiseren. De ­Infiniflash-systemen kosten – als data in onbewerkte vorm worden opgeslagen – minder dan 2 dollar per gigabyte. Met behulp van compressiesoftware en deduplicatie kan dat omlaag naar ongeveer 1 dollar per gigabyte. Daarmee zijn de Infiniflash-systemen een factor 2 tot 3 goedkoper dan de meeste geheel uit flash opgebouwde systemen die nu op de markt zijn.

Bij dat prijsniveau wordt flash ook een steviger rivaal voor harde schijven, al zijn die nog wel een stuk goedkoper. Voor systemen van bedrijfsniveau liggen de kosten van hardeschijfsystemen tussen de 10 en de 50 dollarcent per gigabyte, afhankelijk van configuratie en toebehoren. Wie het aandurft schijven die voor de consumentenmarkt gefabriceerd zijn te gebruiken, kan richting de 5 dollarcent per gigabyte. Maar daar staat tegenover dat harde schijven meer stroom verbruiken, meer ruimte in beslag nemen en kwetsbaarder zijn voor slijtage en storingen dan ‘all-flash’-systemen. Infinflash-systemen gaan volgens SanDisk makkelijk tien jaar mee.

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag