Il termine “riduzione dei dati” si riferisce ai metodi che possono essere uti­liz­za­ti per ridurre la quantità di dati da me­mo­riz­za­re fi­si­ca­men­te. Ciò consente di ri­spar­mia­re spazio e costi di ar­chi­via­zio­ne.

Che cos’è la riduzione dei dati?

Il termine riduzione dei dati comprende vari metodi di ot­ti­miz­za­zio­ne della capacità di me­mo­riz­za­zio­ne, che mirano a ridurre la quantità di dati da me­mo­riz­za­re. Alla luce dell’aumento globale dei volumi di dati, tale riduzione è ne­ces­sa­ria per garantire un’ar­chi­via­zio­ne dei dati ef­fi­cien­te in termini di risorse e di costi.

Esistono due approcci prin­ci­pa­li alla riduzione dei dati: la com­pres­sio­ne e la de­du­pli­ca­zio­ne. Mentre la com­pres­sio­ne senza perdita utilizza le ri­don­dan­ze all’interno di un file per com­pri­me­re i dati, gli algoritmi di de­du­pli­ca­zio­ne sin­cro­niz­za­no i dati tra i file per evitare le ri­pe­ti­zio­ni.

De­du­pli­ca­zio­ne

La de­du­pli­ca­zio­ne è un processo di riduzione dei dati che si basa es­sen­zial­men­te sull’eli­mi­na­zio­ne della ri­don­dan­za dei dati in un sistema di ar­chi­via­zio­ne. Può essere rea­liz­za­ta sia a livello di de­sti­na­zio­ne dell’ar­chi­via­zio­ne che di origine dei dati. Viene uti­liz­za­to un motore di de­du­pli­ca­zio­ne che utilizza algoritmi speciali per iden­ti­fi­ca­re ed eliminare file o blocchi di dati ri­don­dan­ti. Il prin­ci­pa­le campo di ap­pli­ca­zio­ne della de­du­pli­ca­zio­ne è il backup dei dati.

L’obiettivo della riduzione dei dati mediante de­du­pli­ca­zio­ne è scrivere su un supporto dati non volatile solo la quantità di in­for­ma­zio­ni ne­ces­sa­ria per poter ri­co­strui­re un file senza perdite. Più duplicati vengono rimossi, minore è la quantità di dati da me­mo­riz­za­re o tra­sfe­ri­re.

I duplicati possono essere iden­ti­fi­ca­ti a livello di file, ad esempio con Git o Dropbox, ma gli algoritmi di de­du­pli­ca­zio­ne che operano a livello di sottofile sono più ef­fi­cien­ti. A tal fine, i file vengono prima suddivisi in blocchi di dati (chunks) e assegnati a somme di controllo (checksum) univoche, i co­sid­det­ti valori hash. Un database di trac­cia­men­to con­te­nen­te tutte le somme di controllo funge da istanza di controllo centrale.

È possibile di­stin­gue­re tra due tipologie di de­du­pli­ca­zio­ne a blocchi:

  • Lunghezza dei blocchi pre­de­fi­ni­ta: i file vengono suddivisi in sezioni di lunghezza esat­ta­men­te uguale in base alla di­men­sio­ne del cluster del file o del sistema RAID (che ha so­li­ta­men­te una di­men­sio­ne di 4 kB).
  • Lunghezza dei blocchi variabile: l’algoritmo divide i dati in diversi blocchi, di lunghezza variabile a seconda del tipo di dati da elaborare.

La tipologia di divisione dei blocchi influisce no­te­vol­men­te sull’ef­fi­cien­za della de­du­pli­ca­zio­ne dei dati. Ciò diventa par­ti­co­lar­men­te evidente quando i file de­du­pli­ca­ti vengono suc­ces­si­va­men­te mo­di­fi­ca­ti: se si uti­liz­za­no di­men­sio­ni di blocco pre­de­fi­ni­te, tutti i segmenti suc­ces­si­vi vengono clas­si­fi­ca­ti come nuovi dall’algoritmo di de­du­pli­ca­zio­ne quando un file viene mo­di­fi­ca­to a causa dello spo­sta­men­to dei confini dei blocchi. Questo aumenta lo sforzo di calcolo e l’utilizzo della larghezza di banda.

Se, invece, un algoritmo utilizza limiti variabili per la lunghezza dei blocchi, le modifiche a un singolo blocco di dati non in­flui­sco­no sui segmenti vicini. Solo il blocco di dati mo­di­fi­ca­to viene ampliato con i nuovi byte e salvato. Questo riduce il carico sulla rete. La fles­si­bi­li­tà rispetto alle modifiche dei file è però più im­pe­gna­ti­va dal punto di vista com­pu­ta­zio­na­le, poiché l’algoritmo deve prima scoprire come sono suddivisi i blocchi.

Cloud Backup powered by Acronis
Riduci i tempi di inat­ti­vi­tà e proteggi i carichi di lavoro
  • Backup au­to­ma­ti­ci e recupero dei dati
  • Pia­ni­fi­ca­zio­ne e gestione intuitive delle attività
  • Pro­te­zio­ne dalle minacce basata sul­l'in­tel­li­gen­za ar­ti­fi­cia­le

Com­pres­sio­ne dei dati

La com­pres­sio­ne dei dati consiste nel con­ver­ti­re i file in una rap­pre­sen­ta­zio­ne al­ter­na­ti­va più ef­fi­cien­te di quella originale. Lo scopo di questa riduzione dei dati è quello di ridurre sia lo spazio di ar­chi­via­zio­ne richiesto che il tempo di tra­smis­sio­ne. Questo guadagno di codifica può essere ottenuto uti­liz­zan­do due metodi dif­fe­ren­ti:

  • Com­pres­sio­ne delle ri­don­dan­ze: con la com­pres­sio­ne dei dati senza perdita, i dati possono essere nuo­va­men­te de­com­pres­si anche dopo la com­pres­sio­ne. In questo modo, i file in ingresso e in uscita saranno identici. Questo tipo di com­pres­sio­ne è possibile solo se un file contiene in­for­ma­zio­ni ri­don­dan­ti.
  • Com­pres­sio­ne delle ir­ri­le­van­ze: nella com­pres­sio­ne con perdita di dati, la riduzione delle di­men­sio­ni del file viene ef­fet­tua­ta eli­mi­nan­do le in­for­ma­zio­ni ir­ri­le­van­ti in esso contenute. Tale ope­ra­zio­ne comporta sempre una perdita di dati, e permette di ri­pri­sti­na­re i dati originali solo in maniera ap­pros­si­ma­ti­va. I criteri uti­liz­za­ti per de­ter­mi­na­re quali dati siano ir­ri­le­van­ti sono variabili. Nella com­pres­sio­ne di file audio MP3, ad esempio, vengono rimossi modelli di frequenza che si ritiene siano appena udibili o non lo siano affatto.

Mentre la com­pres­sio­ne a livello di sistemi di me­mo­riz­za­zio­ne è fon­da­men­tal­men­te priva di perdite, la perdita di dati in altre aree, come la tra­smis­sio­ne di immagini, video e audio, è lar­ga­men­te accettata al fine di ottenere una riduzione delle di­men­sio­ni dei file.

Sia la codifica che la de­co­di­fi­ca di un file ri­chie­do­no uno sforzo com­pu­ta­zio­na­le. Ciò dipende prin­ci­pal­men­te dal metodo di com­pres­sio­ne uti­liz­za­to. Mentre alcune tecniche sono pro­get­ta­te per rap­pre­sen­ta­re i dati in uscita nel modo più compatto possibile, altre si con­cen­tra­no sulla riduzione del tempo di calcolo richiesto. La scelta del metodo di com­pres­sio­ne dipende quindi sempre dai requisiti dell’area di ap­pli­ca­zio­ne.

De­du­pli­ca­zio­ne e com­pres­sio­ne: le due modalità di riduzione dei dati a confronto

Per im­ple­men­ta­re procedure di backup o ot­ti­miz­za­re lo spazio di ar­chi­via­zio­ne nei file system standard, le aziende ricorrono ge­ne­ral­men­te alla de­du­pli­ca­zio­ne. Ciò è dovuto prin­ci­pal­men­te al fatto che i sistemi di de­du­pli­ca­zio­ne fun­zio­na­no in modo estre­ma­men­te ef­fi­cien­te quando si tratta di me­mo­riz­za­re file identici.

I metodi di com­pres­sio­ne dei dati, invece, sono ge­ne­ral­men­te associati a costi di ela­bo­ra­zio­ne più elevati e ri­chie­do­no quindi piat­ta­for­me più complesse. La soluzione più efficace, però, è cer­ta­men­te rap­pre­sen­ta­ta dai sistemi di ar­chi­via­zio­ne che si avvalgono di una com­bi­na­zio­ne di entrambi i metodi di riduzione dei dati. In questo modo, infatti, è possibile rimuovere prima le ri­don­dan­ze dai file da ar­chi­via­re mediante de­du­pli­ca­zio­ne e suc­ces­si­va­men­te servirsi della com­pres­sio­ne per ridurre le di­men­sio­ni dei dati rimanenti.

Vai al menu prin­ci­pa­le