I sistemi di ar­chi­via­zio­ne di­stri­bui­ti sono la soluzione per l’ar­chi­via­zio­ne e la gestione di dati che non possono più essere gestiti dai server tra­di­zio­na­li. Non è solo una questione di di­men­sio­ni; so­prat­tut­to quando si tratta di dati non strut­tu­ra­ti, un classico file system con la sua struttura tra­di­zio­na­le di cartelle non è più fun­zio­na­le.

IONOS Cloud Object Storage
Ar­chi­via­zio­ne sicura e a prezzi van­tag­gio­si

Archivia i tuoi dati in tutta sicurezza sui nostri server, e pro­teg­gi­li dagli accessi non au­to­riz­za­ti.

Me­mo­riz­za­re grandi quantità di dati: con GlusterFS e Ceph si può

Quando si lavora con i dati di massa, la quantità effettiva di dati non è nota all’inizio del progetto. Durante il fun­zio­na­men­to i sistemi devono pertanto essere fa­cil­men­te espan­di­bi­li con server ag­giun­ti­vi, che siano in grado d’in­te­grar­si per­fet­ta­men­te in un sistema di storage esistente. Per l’utente, il co­sid­det­to file system di­stri­bui­to si presenta come una singola cartella in un file system con­ven­zio­na­le. Ciò significa che l’utente non si accorge che singoli file o anche solo parti di essi possono trovarsi su server diversi, alcuni dei quali possono trovarsi anche in località geo­gra­fi­ca­men­te distanti. Poiché GlusterFS e Ceph sono già entrambi piat­ta­for­me software su sistemi operativi Linux, non hanno requisiti hardware speciali. Linux funziona su qualsiasi server standard e supporta tutti i tipi di hard disk più comuni.

Un’elevata di­spo­ni­bi­li­tà è fon­da­men­ta­le

Un’elevata di­spo­ni­bi­li­tà è un aspetto im­por­tan­te nelle soluzioni di storage di­stri­bui­to. I guasti hardware do­vreb­be­ro ve­ri­fi­car­si il più raramente possibile e anche il software ne­ces­sa­rio al fun­zio­na­men­to dovrebbe con­ti­nua­re a fun­zio­na­re inin­ter­rot­ta­men­te, anche quando vengono aggiunti nuovi com­po­nen­ti. I lavori di ma­nu­ten­zio­ne devono poter essere eseguiti durante il fun­zio­na­men­to. Tutti i metadati im­por­tan­ti non devono essere me­mo­riz­za­ti solo in un unico luogo centrale, al contrario dev’essere possibile accedere ai metadati in modo de­cen­tra­to e nessun punto dev’essere privo di ri­don­dan­za. Un guasto del server non deve in nessun caso poter dan­neg­gia­re la coerenza dell’intero sistema. GlusterFS e Ceph sono due sistemi che in modo diverso possono essere espansi in base alle esigenze, con­sen­ten­do di combinare e ricercare i dati di progetti di grandi di­men­sio­ni in un unico sistema.

Fatto
Il termine “Big Data” è usato per indicare mass data molto grandi, complessi e poco strut­tu­ra­ti, come quelli generati da sensori scien­ti­fi­ci (ad esempio da satelliti GPS), reti me­teo­ro­lo­gi­che o anche prodotti in sta­ti­sti­ca. Oltre all’ar­chi­via­zio­ne, per i Big Data sono im­por­tan­ti anche la ricerca efficace e la si­ste­ma­tiz­za­zio­ne dei dati.

Breve pre­sen­ta­zio­ne di GlusterFS

GlusterFS è un file system di­stri­bui­to, con una struttura modulare. Diversi server sono collegati tra loro tramite una rete TCP/IP. In qualità di file system conforme a POSIX (Portable Operating System Interface), GlusterFS può essere fa­cil­men­te integrato in ambienti server Linux esistenti. Questo vale anche per FreeBSD, Open­So­la­ris e macOS, che sup­por­ta­no sempre POSIX. L’in­te­gra­zio­ne in ambienti Windows è stata finora possibile soltanto uti­liz­zan­do un server Linux come gateway.

Fun­zio­na­men­to di GlusterFS

GlusterFS è nato come un classico sistema di ar­chi­via­zio­ne basato su file; solo in seguito è diventato orientato agli oggetti, con par­ti­co­la­re at­ten­zio­ne all’in­te­gra­zio­ne ottimale nella nota soluzione cloud e open source OpenStack. GlusterFS continua a lavorare in back­ground su una base di file, per cui ad ogni file viene assegnato un oggetto la cui con­nes­sio­ne è definita nel file system tramite hard link. Non ci sono server dedicati per l’utente, in quanto questi ha a di­spo­si­zio­ne le proprie in­ter­fac­ce per me­mo­riz­za­re i dati su GlusterFS, che si presenta come sistema com­ples­si­vo.

Vantaggi Svantaggi
Facile in­te­gra­zio­ne nei sistemi Linux In­te­gra­zio­ne nei sistemi Windows solo in maniera indiretta
Com­pa­ti­bi­li­tà con POSIX  
Supporto FUSE (File System in User Space)  

Breve pre­sen­ta­zio­ne di Ceph

La soluzione di ar­chi­via­zio­ne di­stri­bui­ta open source Ceph è una memoria di oggetti che funziona sulla base di oggetti binari e quindi bypassa le rigide strutture a blocchi dei supporti dati tra­di­zio­na­li. Fi­si­ca­men­te Ceph utilizza sempre i dischi rigidi, ma ha un proprio algoritmo che regola la gestione degli oggetti binari, che possono essere suddivisi in parti qualsiasi su più server e suc­ces­si­va­men­te di nuovo as­sem­bla­ti.

Fun­zio­na­men­to di Ceph

Tutti i com­po­nen­ti fun­zio­na­no in modo de­cen­tra­to. Tutti gli OSD (Object Based Storage Device = di­spo­si­ti­vo di me­mo­riz­za­zio­ne basato su oggetti) sono uguali tra loro. Quindi, un numero qualsiasi di server con dischi rigidi diversi può essere collegato per formare un sistema di ar­chi­via­zio­ne. Ceph offre at­tra­ver­so tre im­por­tan­ti in­ter­fac­ce diverse pos­si­bi­li­tà d’in­te­gra­zio­ne negli ambienti di sistema esistenti: CephFS come driver del file system Linux, RADOS Block Devices (RBD) come Linux Device, che può essere integrato di­ret­ta­men­te, e RADOS Gateway, che è com­pa­ti­bi­le con Swift e Amazon S3.

Vantaggi Svantaggi
Facile in­te­gra­zio­ne in tutti i sistemi, in­di­pen­den­te­men­te dal sistema operativo uti­liz­za­to Funzioni del file system più deboli
Block Device per Linux Occorre pia­ni­fi­ca­re un tempo maggiore per imparare le strutture di me­mo­riz­za­zio­ne, che sono com­ple­ta­men­te nuove
File system CephFS per Linux  
In­ter­fac­cia Amazon S3  
Con­nes­sio­ne senza in­ter­ru­zio­ni all’au­ten­ti­ca­zio­ne Keystone  
Modulo FUSE (File System in User Space) per sup­por­ta­re sistemi senza client CephFS  

Confronto: GlusterFS vs Ceph

Rispetto alle dif­fe­ren­ze tecniche tra GlusterFS e Ceph, non c’è un vincitore evidente. In linea di principio, Ceph è un’ar­chi­via­zio­ne basata su oggetti per dati non strut­tu­ra­ti, mentre GlusterFS utilizza alberi di file system ge­rar­chi­ci in blocchi. GlusterFS ha le sue origini in un sistema di ar­chi­via­zio­ne basato su file, altamente ef­fi­cien­te, che si sta evolvendo sempre più verso l’orien­ta­men­to agli oggetti. Al contrario, Ceph è stato svi­lup­pa­to fin dall’inizio come archivio di oggetti binari piuttosto che come un classico file system, il che può implicare dei punti deboli nelle ope­ra­zio­ni tipiche del file system.

GlusterFS Ceph
Punti di forza nel file system Punti di forza nell’Object Store
Algoritmo di me­mo­riz­za­zio­ne più veloce Pre­sta­zio­ni migliori su hardware semplice
Server di metadati centrale non ne­ces­sa­rio Facile in­te­gra­zio­ne in tutti i sistemi, in­di­pen­den­te­men­te dal sistema operativo uti­liz­za­to
Com­ples­si­tà ridotta Block Device per Linux
Più adatto per il sal­va­tag­gio di file di grandi di­men­sio­ni (a partire da circa 4 MB per file) Opzioni più semplici di per­so­na­liz­za­zio­ne
Migliore idoneità per file con accesso se­quen­zia­le Com­pa­ti­bi­li­tà RADOS

Come scegliere il sistema più idoneo?

Grazie alle sue mol­te­pli­ci in­ter­fac­ce, Ceph è ben uti­liz­za­bi­le in reti ete­ro­ge­nee, dove oltre a Linux vengono uti­liz­za­ti anche altri sistemi operativi. GlusterFS mostra i suoi punti di forza quando si tratta di me­mo­riz­za­re un gran numero di file tra­di­zio­na­li e di grandi di­men­sio­ni. Poiché Ceph è stato svi­lup­pa­to fin dall’inizio come soluzione open source, è stato più facile ap­pli­car­lo in diversi ambienti rispetto a GlusterFS, che è stato ri­la­scia­to come open source solo in seguito. Le soluzioni cloud sono un im­por­tan­te campo di ap­pli­ca­zio­ne per lo storage di­stri­bui­to. Ad esempio OpenStack, dove sia GlusterFs, sia Ceph trovano ap­pli­ca­zio­ne, è uno dei più im­por­tan­ti progetti software che offre ar­chi­tet­tu­re per il cloud computing.

Vai al menu prin­ci­pa­le