Welke storage vorm past bij uw toepassing?

Object storage is voor velen een wat onbekende vorm van data opslag. Toch vormt deze opslagmethode van ongestructureerde data, perspectief voor de zeer nabije toekomst.

data center“80% of enterprises are considering new business models and are looking to hybrid cloud platforms for just that, and Object Storage could be one of the solutions needed by these innovators

Waar moeten organisaties, die het hoofd moeten bieden aan de toenemende vraag naar data beschikbaarheid en datamanagement tegen aanvaardbare kosten, op letten bij storage overwegingen?

Object storage is bekender dan wij ons realiseren. Sterker nog, we maken er dagelijks gebruik van. Services zoals Owncloud, Google Docs, Twitter, Dropbox, Netflix en Instagram werken allen minimaal deels volgens dit storage principe. Voor deze toepassingen wordt geen gebruik gemaakt van de data opslagmethode die wij het beste kennen: File-storage. We herkennen allen de notatiewijze van een pad (path), dat de weg vormt naar de gewenste file locatie op een harddisk, zoals de index van een boek. Object storage is onafhankelijk van zo’n hiërarchisch file system. Want een traditioneel file system werkt prima tot een bepaalde hoeveelheid entries, (en dat kan zelf tot in de honderdduizenden files lopen). Daarboven – zoals tegenwoordig zeker geen uitzondering meer is – werkt de hiërarchie structuur verlammend op de performance en dus het praktisch gebruik. Traditionele file systems kenmerken zich bovendien doordat de “informatie over de de informatie”,  de metadata, opgeslagen wordt in het file system zelf.

Een ander verhaal is dat van block storage, meestal ingezet waar performance van belang is, zoals bij online transacties en database toepassingen. Een block is eenvoudigweg een brok data, terwijl datablokken gezamenlijk een file vormen onder controle van de applicatie en feitelijk alleen maar een adres hebben om gevonden te kunnen worden. Geen (of nauwelijks) metadata, geen beschrijving en zelfs geen eigenaar. Het performance voordeel van het ontbreken van de overhead van een filesystem gaat echter teniet als er remote gewerkt gaat worden. De hierdoor ontstane latency doet alle genoemde performance voordelen in rook opgaan, waardoor block storage er meestal aan gehouden is lokaal ingezet te worden.

Kijken we vervolgens naar object storage zien we eigenlijk een combinatie van kenmerken die de systeem karakteristieken bepalen. Als data en metadata in dezelfde bundel in een flat file system opgeslagen worden, spreken we van object storage. Ieder object krijgt een eigen ID waarmee het object uniek te identificeren is, waar het ook staat. De eigenschappen maken dat object storage geen schaalbaarheid grenzen meer kent. De uitgebreide metadata faciliteiten maken het mogelijk om de “informatie over de data” uitgebreider, specifieker en unieker te maken. Eigenschappen waarmee data analyse en retrieval binnen ongestructureerde data goed kan plaatsvinden.  Het systeem doet een beetje denken aan de Japanse parkeergarages of geautomatiseerde container opslag. Zolang het systeem maar weet waar het object opgeslagen is, hoeft de gebruiker zich geen zorgen meer te maken over de locatie.

Meer data, lagere operationele kosten, toekomstbestendig

Bij Google conferentie op bezoek in Amsterdam, Data and storage is everything

Bij Google conferentie

Niet alleen de opkomst van IoT zal zorgdragen voor een explosieve datagroei. Ook de interactie met klanten via o.a. social media en het steeds rijker worden van de data zelf, zal verdubbeling tot verdriedubbeling van de hoeveelheid data betekenen op korte termijn. Met gevolgen voor de opslagruimte, het beheer, het ontbreken van een back-up window etc. etc.

En ondertussen mogen de operationele kosten niet stijgen, maar liever lager worden. Het beheren van afzonderlijke data silo’s op traditionele bestandssystemen zal de complexiteit van het beheer alsmede de uitbreidingskosten zeker doen stijgen. Uitwijk naar storage “buiten de deur” is voor iedere use case weer om andere redenen, niet altijd mogelijk c.q. wenselijk. Denk hierbij aan zaken rond veiligheid, performance, kosten etc. Uitgaande van de markttrend die zeker een beweging richting Cloud diensten laat zien, is het in ieder geval verstandig om aansluiting te zoeken bij oplossingen die Cloud ready zijn. Nu is het grote nadeel van standaards dat het er zoveel zijn, maar dit neemt niet weg dat investeren in Cloud technologie in plaats van legacy storage, de weg naar de Cloud diensten eerder eenvoudiger dan complexer maakt. Een toekomstbestendige afweging, die zichzelf wel eens heel snel terug zou kunnen verdienen.

Al de genoemde functionaliteit en extra mogelijkheden hebben uiteraard ook een keerzijde. Eerlijk is eerlijk, object storage staat niet op nummer één in de lijst van snelheidsrecords. Dat is ook niet de doelstelling, zolang het niet om online data transacties of supersnelle zoekacties gaat. Voor veel data en media toepassingen is het belangrijk om de data op een eenvoudige en flexibele manier terug te kunnen vinden door middel van uitgekiende metadata. En ook dat er geen zorgen zijn over toenemende groei en geografische verspreiding van de data.

Object storage is handig voor:

Nieuwe invulling  van traditionele data zekerheid, backup en archief doeleinden:
Met name vanwege de lineair schaalbare uitbreidingsmogelijkheden, de relatief lage onderhoudsfactor, het gebruik van standaard componenten en in het geval van de Ambedded servers ook energie, koeling- en kostenbesparing door het extreem lage energieverbruik.

Lokale data silo’s:
Object storage-systemen kunnen op verschillende locaties ingezet worden en vanuit andere locatie geraadpleegd.

SaaS: Object storage kan goed ingezet worden als Cloud technologie voor zowel bedrijven als data dienstverleners.

Het beheren van een digitale bewaar- en distributieplaats:
Object storage is uitermate geschikt voor de opslag van beeldmateriaal zoals, audio, video en fotomateriaal om vervolgens op eenvoudige wijze weer beschikbaar gesteld te worden aan apps en zoeksystemen. Denk ook aan Netflix-achtige toepassing, video on demand of foto services.

 Analyse van Big data:
In combinatie met bijvoorbeeld Hadoop is het mogelijk om Objecten vanuit de storage te benaderen voor analyse doeleinden.

Opslag van grote maar relatief “dode” data bestanden:
Denk aan log gegevens etc. die gedurende een korte of langere tijd eenvoudigweg beschikbaar moeten zijn om zaken vast te leggen om eventueel later te traceren.

Gebrek aan standaards?

Ik schreef al eerder het grote nadeel van standaards is dat het er zoveel zijn. Van echte industrie standaards is eigenlijk geen sprake, hoewel OpenStack en Amazon S3 wel de meest voorkomende toepassingen zijn, en het in zich hebben om tot industrie standaard uit te groeien. Bij de keuze van storage standaards is het zaak te kijken naar oplossingen die door middel van software een rijke variëteit aan toekomstige industrie standaards kan ondersteunen. Zo bieden de op de Interop Las Vegas in de categorie storage als winnaar verkozen Ambedded Mars 20x systemen, een rijke variëteit aan solution richtingen, waaronder Object Storage:

  • VM Storage met OpenStack Cinder, Glance & NovaARM MicroServer
  • Supports CEPH en GlusterFS Scale-Out storage technologies
  • Object storage voor tenant apps
  • Betrouwbare en volledig gedistribueerde block storage
  • Bucket based REST gateway, compatible met Swift & AWS S3 object storage APIs
  • NFS, SMB, HDFS & iSCSI interfaces voor enterprise gebruik

De toepassing van CEPH is een interessante, waarbij de gebruiker feitelijk nooit vast zit aan één specifieke keuze. Door de inzet van CEPH is het mogelijk om applicatie omgevingen die heel verschillende storage interface requirements hebben, naar wens vanuit hetzelfde cluster platform zowel object, block, en file system storage te bieden.

Wat de Ambedded systemen verder uniek maakt is het feit dat wij gebruik maken van: dedicated resources zoals CPU, DRAM, Network en Storage bandwidth per storage device., Met andere woorden iedere disk heeft zijn eigen CPU ter beschikking in het cluster, waardoor de uitval van een (low cost, low energy) microserver, die maar aan één storage device gekoppelt is, nauwelijks enige invloed heeft op de totale performance. Bovendien gaat data binnen het cluster niet verloren en ook vervanging van de defecte node hoeft niet a la minuut plaats hoeft te vinden. Dit kan gewoon uitgesteld worden tot aan regulier onderhoud om unplanned downtime en extra onderhoudskosten te beperken.

Onbekend maakt…begerenswaardig

De huidige systemen voor data storage voldoen niet meer zodra er bij een organisatie sprake is van explosieve datagroei, toegenomen behoefte aan kostenbeheersing en aansluiting nodig is op Cloud standaards. Met de komst van nieuwe technieken, en volstrekt nieuwe aanbieders op het storage front is het kiezen van de juiste oplossing er niet eenvoudiger op geworden.

De use scenario’s zullen op veel punten variëren, waarmee de toepassing precies past of juist totaal niet voldoet. Een storage beslissing neem je dan ook nooit vanuit de brochure, maar na een gedegen praktijk test en finetuning van de oplossing. Feit blijft dat organisatie die hun data pools uit zien groeien tot exabyte proporties geen andere keuze hebben dan flexibele software defined storage oplossingen met lineaire scale-out mogelijkheden. En dat hoeven heus niet allemaal All Flash systemen te zijn. Want slechts voor een deel van de data toepassingen is razendsnelle SSD toegang strikt noodzakelijk. Technieken die overigens in de meeste storage producten toegepast kunnen worden, daar waar dat een zinvolle bijdrage biedt.

Andrea Marchi legt bijzonder helder uit hoe ze bij Cynny Space de innovatieve  greenIT ARM based Microserver cloud object storage technology (powered by Ambedded) gebruiken in zijn speech: “Object storage and innovation as building blocks for Sync & Share applications”.

 


Geef een reactie