Riduzione dei dati

Indice

Il termine “riduzione dei dati” si riferisce ai metodi che possono essere utilizzati per ridurre la quantità di dati da memorizzare fisicamente. Ciò consente di risparmiare spazio e costi di archiviazione.

Che cos’è la riduzione dei dati?

Il termine riduzione dei dati comprende vari metodi di ottimizzazione della capacità di memorizzazione, che mirano a ridurre la quantità di dati da memorizzare. Alla luce dell’aumento globale dei volumi di dati, tale riduzione è necessaria per garantire un’archiviazione dei dati efficiente in termini di risorse e di costi.

Esistono due approcci principali alla riduzione dei dati: la compressione e la deduplicazione. Mentre la compressione senza perdita utilizza le ridondanze all’interno di un file per comprimere i dati, gli algoritmi di deduplicazione sincronizzano i dati tra i file per evitare le ripetizioni.

Deduplicazione

La deduplicazione è un processo di riduzione dei dati che si basa essenzialmente sull’eliminazione della ridondanza dei dati in un sistema di archiviazione. Può essere realizzata sia a livello di destinazione dell’archiviazione che di origine dei dati. Viene utilizzato un motore di deduplicazione che utilizza algoritmi speciali per identificare ed eliminare file o blocchi di dati ridondanti. Il principale campo di applicazione della deduplicazione è il backup dei dati.

L’obiettivo della riduzione dei dati mediante deduplicazione è scrivere su un supporto dati non volatile solo la quantità di informazioni necessaria per poter ricostruire un file senza perdite. Più duplicati vengono rimossi, minore è la quantità di dati da memorizzare o trasferire.

I duplicati possono essere identificati a livello di file, ad esempio con Git o Dropbox, ma gli algoritmi di deduplicazione che operano a livello di sottofile sono più efficienti. A tal fine, i file vengono prima suddivisi in blocchi di dati (chunks) e assegnati a somme di controllo (checksum) univoche, i cosiddetti valori hash. Un database di tracciamento contenente tutte le somme di controllo funge da istanza di controllo centrale.

È possibile distinguere tra due tipologie di deduplicazione a blocchi:

Lunghezza dei blocchi predefinita: i file vengono suddivisi in sezioni di lunghezza esattamente uguale in base alla dimensione del cluster del file o del sistema RAID (che ha solitamente una dimensione di 4 kB).
Lunghezza dei blocchi variabile: l’algoritmo divide i dati in diversi blocchi, di lunghezza variabile a seconda del tipo di dati da elaborare.

La tipologia di divisione dei blocchi influisce notevolmente sull’efficienza della deduplicazione dei dati. Ciò diventa particolarmente evidente quando i file deduplicati vengono successivamente modificati: se si utilizzano dimensioni di blocco predefinite, tutti i segmenti successivi vengono classificati come nuovi dall’algoritmo di deduplicazione quando un file viene modificato a causa dello spostamento dei confini dei blocchi. Questo aumenta lo sforzo di calcolo e l’utilizzo della larghezza di banda.

Se, invece, un algoritmo utilizza limiti variabili per la lunghezza dei blocchi, le modifiche a un singolo blocco di dati non influiscono sui segmenti vicini. Solo il blocco di dati modificato viene ampliato con i nuovi byte e salvato. Questo riduce il carico sulla rete. La flessibilità rispetto alle modifiche dei file è però più impegnativa dal punto di vista computazionale, poiché l’algoritmo deve prima scoprire come sono suddivisi i blocchi.

Cloud Backup powered by Acronis

Riduci i tempi di inattività e proteggi i carichi di lavoro

Backup automatici e recupero dei dati
Pianificazione e gestione intuitive delle attività
Protezione dalle minacce basata sull'intelligenza artificiale

Compressione dei dati

La compressione dei dati consiste nel convertire i file in una rappresentazione alternativa più efficiente di quella originale. Lo scopo di questa riduzione dei dati è quello di ridurre sia lo spazio di archiviazione richiesto che il tempo di trasmissione. Questo guadagno di codifica può essere ottenuto utilizzando due metodi differenti:

Compressione delle ridondanze: con la compressione dei dati senza perdita, i dati possono essere nuovamente decompressi anche dopo la compressione. In questo modo, i file in ingresso e in uscita saranno identici. Questo tipo di compressione è possibile solo se un file contiene informazioni ridondanti.
Compressione delle irrilevanze: nella compressione con perdita di dati, la riduzione delle dimensioni del file viene effettuata eliminando le informazioni irrilevanti in esso contenute. Tale operazione comporta sempre una perdita di dati, e permette di ripristinare i dati originali solo in maniera approssimativa. I criteri utilizzati per determinare quali dati siano irrilevanti sono variabili. Nella compressione di file audio MP3, ad esempio, vengono rimossi modelli di frequenza che si ritiene siano appena udibili o non lo siano affatto.

Mentre la compressione a livello di sistemi di memorizzazione è fondamentalmente priva di perdite, la perdita di dati in altre aree, come la trasmissione di immagini, video e audio, è largamente accettata al fine di ottenere una riduzione delle dimensioni dei file.

Sia la codifica che la decodifica di un file richiedono uno sforzo computazionale. Ciò dipende principalmente dal metodo di compressione utilizzato. Mentre alcune tecniche sono progettate per rappresentare i dati in uscita nel modo più compatto possibile, altre si concentrano sulla riduzione del tempo di calcolo richiesto. La scelta del metodo di compressione dipende quindi sempre dai requisiti dell’area di applicazione.

Deduplicazione e compressione: le due modalità di riduzione dei dati a confronto

Per implementare procedure di backup o ottimizzare lo spazio di archiviazione nei file system standard, le aziende ricorrono generalmente alla deduplicazione. Ciò è dovuto principalmente al fatto che i sistemi di deduplicazione funzionano in modo estremamente efficiente quando si tratta di memorizzare file identici.

I metodi di compressione dei dati, invece, sono generalmente associati a costi di elaborazione più elevati e richiedono quindi piattaforme più complesse. La soluzione più efficace, però, è certamente rappresentata dai sistemi di archiviazione che si avvalgono di una combinazione di entrambi i metodi di riduzione dei dati. In questo modo, infatti, è possibile rimuovere prima le ridondanze dai file da archiviare mediante deduplicazione e successivamente servirsi della compressione per ridurre le dimensioni dei dati rimanenti.

Articoli popolari

Vendere domini: come guadagnare con i domini?

Comprare e vendere domini può essere un'attività lucrativa, se si sa come procedere. Vi…

5 alternative a Nextcloud a confronto

Scopri le migliori alternative a Nextcloud, ideali per diverse esigenze di archiviazione…

I 7 migliori servizi di backup online a confronto

Salva i tuoi dati al sicuro nel cloud. Ti presentiamo 7 servizi per proteggere i tuoi…

Aggiornamento a Debian 13: come funziona

Questa guida ti mostra come eseguire un aggiornamento a Debian 13, preparare il tuo…

4 alternative gratuite a InDesign di Adobe

I software Adobe sono troppo costosi? Sul web sono disponibili alcune alternative gratuite…

Articoli simili

agsandrewshutterstock

Load balancing: bilanciamento del carico

La disponibilità di un sito web o di un negozio online è decisiva per il successo di un’attività. Sempre più aziende ricorrono perciò al load balancer per distribuire equamente su più computer le richieste degli utenti al server. Se utilizzato correttamente, i siti restano sempre…

Lessico

dizainShutterstock

Backup di database

Effettuare backup è un’ottima soluzione per garantire la sicurezza dei database. Per creare queste copie di sicurezza è necessario tuttavia un hardware supplementare e l’installazione di strutture di backup adatte. Come mettete al sicuro il vostro network e il vostro server web…

Database
PHP
MySQL

ToriaShutterstock

Creare un backup con rsync

Un backup del server è il modo migliore per proteggere dati importanti del vostro progetto online e prevenire la perdita di dati. Soprattutto negli ambienti server, si applica una sofisticata strategia di backup, che considera tutti i dispositivi finali. A tale scopo servono…

Database
Linux
Windows

Wavebreakmedia Ltd UC19Shutterstock

I più importanti livelli RAID a confronto

Chi desidera concatenare i dischi rigidi in un sistema RAID ha diversi setup standard tra cui scegliere, più comunemente definiti livelli RAID. Queste concatenazioni predefinite descrivono la disposizione di ogni singolo disco rigido, così come i processi da eseguire per…

Protezione dei Dati
Sicurezza

UndreyShutterstock

Estensione di file .tar: come aprire e utilizzare il formato

Archiviare file di grandi dimensioni con .tar presenta numerosi vantaggi. Il formato funziona su tutti i sistemi operativi più diffusi e consente di impacchettare grandi volumi di dati con un notevole risparmio di spazio. Vi spieghiamo cos’è questo formato, come funziona un file…

Tutorial

Riduzione dei dati

Che cos’è la riduzione dei dati?

De­du­pli­ca­zio­ne

Com­pres­sio­ne dei dati

De­du­pli­ca­zio­ne e com­pres­sio­ne: le due modalità di riduzione dei dati a confronto

Deduplicazione

Compressione dei dati

Deduplicazione e compressione: le due modalità di riduzione dei dati a confronto