GlusterFS vs Ceph: 2 sistemi di archiviazione a confronto

I sistemi di archiviazione distribuiti sono lasoluzione per l’archiviazione e la gestione di dati che non possono più essere gestiti dai server tradizionali. Non è solo una questione di dimensioni; soprattutto quando si tratta di dati non strutturati, un classico file system con la sua struttura tradizionale di cartelle non è più funzionale.

Memorizzare grandi quantità di dati: con GlusterFS e Ceph si può

Quando si lavora con i dati di massa, la quantità effettiva di dati non è nota all’inizio del progetto. Durante il funzionamento i sistemi devono pertanto essere facilmente espandibilicon server aggiuntivi, che siano in grado d’integrarsi perfettamente in un sistema di storage esistente. Per l’utente, il cosiddetto file system distribuito si presenta come una singola cartella in un file system convenzionale. Ciò significa che l’utente non si accorge che singoli file o anche solo parti di essi possono trovarsi su server diversi, alcuni dei quali possono trovarsi anche in località geograficamente distanti. Poiché GlusterFS e Ceph sono già entrambi piattaforme software su sistemi operativi Linux, non hanno requisiti hardware speciali. Linux funziona su qualsiasi server standard e supporta tutti i tipi di hard disk più comuni.

Un’elevata disponibilità è fondamentale

Un’elevata disponibilità è un aspetto importante nelle soluzioni di storage distribuito. I guasti hardware dovrebbero verificarsi il più raramente possibile e anche il software necessario al funzionamento dovrebbe continuare a funzionare ininterrottamente, anche quando vengono aggiunti nuovi componenti. I lavori di manutenzione devono poter essere eseguiti durante il funzionamento. Tutti i metadati importanti non devono essere memorizzati solo in un unico luogo centrale, al contrario dev’essere possibile accedere ai metadati in modo decentrato e nessun punto dev’essere privo di ridondanza. Un guasto del server non deve in nessun caso poter danneggiare la coerenza dell’intero sistema. GlusterFS e Ceph sono due sistemi che in modo diverso possono essere espansi in base alle esigenze, consentendo di combinare e ricercare i dati di progetti di grandi dimensioni in un unico sistema.

Fatto

Il termine “Big Data” è usato per indicare mass data molto grandi, complessi e poco strutturati, come quelli generati da sensori scientifici (ad esempio da satelliti GPS), reti meteorologiche o anche prodotti in statistica. Oltre all’archiviazione, per i Big Data sono importanti anche la ricerca efficace e la sistematizzazione dei dati.

Breve presentazione di GlusterFS

GlusterFS è un file system distribuito, con una struttura modulare. Diversi server sono collegati tra loro tramite una rete TCP/IP. In qualità di file system conforme a POSIX (Portable Operating System Interface), GlusterFS può essere facilmente integrato in ambienti server Linux esistenti. Questo vale anche per FreeBSD, OpenSolaris e macOS, che supportano sempre POSIX. L’integrazione in ambienti Windows è stata finora possibile soltanto utilizzando un server Linux come gateway.

Funzionamento di GlusterFS

GlusterFS è nato come un classico sistema di archiviazione basato su file; solo in seguito è diventato orientato agli oggetti, con particolare attenzione all’integrazione ottimale nella nota soluzione cloud e open source OpenStack. GlusterFS continua a lavorare in background su una base di file, per cui ad ogni file viene assegnato un oggetto la cui connessione è definita nel file system tramite hard link. Non ci sono server dedicati per l’utente, in quanto questi ha a disposizione le proprie interfacce per memorizzare i dati su GlusterFS, che si presenta come sistema complessivo.

Vantaggi Svantaggi
Facile integrazione nei sistemi Linux Integrazione nei sistemi Windows solo in maniera indiretta
Compatibilità con POSIX  
Supporto FUSE (File System in User Space)  

Breve presentazione di Ceph

La soluzione di archiviazione distribuita open source Ceph è una memoria di oggetti che funziona sulla base di oggetti binari e quindi bypassa le rigide strutture a blocchi dei supporti dati tradizionali. Fisicamente Ceph utilizza sempre i dischi rigidi, ma ha un proprio algoritmo che regola la gestione degli oggetti binari, che possono essere suddivisi in parti qualsiasi su più server e successivamente di nuovo assemblati.

Funzionamento di Ceph

Tutti i componenti funzionano in modo decentrato. Tutti gli OSD (Object Based Storage Device = dispositivo di memorizzazione basato su oggetti) sono uguali tra loro. Quindi, un numero qualsiasi di server con dischi rigidi diversi può essere collegato per formare un sistema di archiviazione. Ceph offre attraverso tre importanti interfacce diverse possibilità d’integrazione negli ambienti di sistema esistenti: CephFS come driver del file system Linux, RADOS Block Devices (RBD) come Linux Device, che può essere integrato direttamente, e RADOS Gateway, che è compatibile con Swift e Amazon S3.

Vantaggi Svantaggi
Facile integrazione in tutti i sistemi, indipendentemente dal sistema operativo utilizzato Funzioni del file system più deboli
Block Device per Linux Occorre pianificare un tempo maggiore per imparare le strutture di memorizzazione, che sono completamente nuove
File system CephFS per Linux  
Interfaccia Amazon S3  
Connessione senza interruzioni all’autenticazione Keystone  
Modulo FUSE (File System in User Space) per supportare sistemi senza client CephFS  

Confronto: GlusterFS vs Ceph

Rispetto alle differenze tecniche tra GlusterFS e Ceph, non c’è un vincitore evidente. In linea di principio, Ceph è un’archiviazione basata su oggetti per dati non strutturati, mentre GlusterFS utilizza alberi di file system gerarchici in blocchi. GlusterFS ha le sue origini in un sistema di archiviazione basato su file, altamente efficiente, che si sta evolvendo sempre più verso l’orientamento agli oggetti. Al contrario, Ceph è stato sviluppato fin dall’inizio come archivio di oggetti binari piuttosto che come un classico file system, il che può implicare dei punti deboli nelle operazioni tipiche del file system.

GlusterFS Ceph
Punti di forza nel file system Punti di forza nell’Object Store
Algoritmo di memorizzazione più veloce Prestazioni migliori su hardware semplice
Server di metadati centrale non necessario Facile integrazione in tutti i sistemi, indipendentemente dal sistema operativo utilizzato
Complessità ridotta Block Device per Linux
Più adatto per il salvataggio di file di grandi dimensioni (a partire da circa 4 MB per file) Opzioni più semplici di personalizzazione
Migliore idoneità per file con accesso sequenziale Compatibilità RADOS

Come scegliere il sistema più idoneo?

Grazie alle sue molteplici interfacce, Ceph è ben utilizzabile in reti eterogenee, dove oltre a Linux vengono utilizzati anche altri sistemi operativi. GlusterFS mostra i suoi punti di forza quando si tratta di memorizzare un gran numero di file tradizionali e di grandi dimensioni. Poiché Ceph è stato sviluppato fin dall’inizio come soluzione open source, è stato più facile applicarlo in diversi ambienti rispetto a GlusterFS, che è stato rilasciato come open source solo in seguito. Le soluzioni cloud sono un importante campo di applicazione per lo storage distribuito. Ad esempio OpenStack, dove sia GlusterFs, sia Ceph trovano applicazione, è uno dei più importanti progetti software che offre architetture per il cloud computing.


Offerta Black Friday
Non perderti la nostra offerta speciale sui prodotti pensati per il tuo successo online. Approfittane subito, hai tempo solo fino al 30 novembre.
Sconti fino al 98%