Quanta capacità di archiviazione dati necessitano le aziende per l'archiviazione e il backup? Quattro delle più grandi aziende di archiviazione online (Google, Amazon, Microsoft e Facebook) archiviano almeno 1.200 petabyte (PB), che equivalgono a 1,2 milioni di terabyte (TB). Anche per le aziende più piccole, è notevole la quantità di dati che gestiscono.
I costi crescenti dell'archiviazione dati
Secondo l'IDG Data and Analytics Survey, il volume medio di dati gestiti per dimensione aziendale è:
- Azienda di grandi dimensioni: 350 TB di dati
- Azienda di medie dimensioni: 160 TB di dati
- Piccola impresa: 50 TB di dati
Traduciamo questo in costi effettivi. Oggi le aziende pagano per l'archiviazione dei dati più che mai. 1 TB di archiviazione dati su cloud costa circa 21 dollari al mese da Amazon AWS, Google e Microsoft Azure. Se prendiamo questo numero e lo moltiplichiamo per il volume medio di dati gestiti per dimensione aziendale, possiamo stimare il costo medio annuo dell'archiviazione dati in base alla dimensione dell'azienda:
- Azienda di grandi dimensioni: 88.200 dollari
- Azienda di medie dimensioni: 40.320 dollari
- Piccola impresa: 12.600 dollari
Come mostrato, il costo dell'archiviazione dati non è trascurabile indipendentemente dalla dimensione dell'azienda. Inoltre, molte aziende stanno facendo il backup dei loro dati nel caso in cui i dati vengano persi o danneggiati, il che consente loro di ripristinare i dati immediatamente e continuare le operazioni aziendali. Ciò significa pagare per l'archiviazione del backup dei dati, che costa loro un ulteriore 20% al 40% oltre al costo dell'archiviazione. Infine, a seconda dell'azienda, devono anche pagare per costi aggiuntivi per la gestione dei dati.
| Correlato: Il software di backup e recupero di emergenza garantisce le operazioni aziendali → |
Alla fine, molte aziende si rendono conto del vero costo dell'archiviazione dati e sono interessate a modi per ridurlo. Ci sono molti modi per ridurre il costo, come eseguire la compressione dei file o optare per fornitori più economici, ma uno dei modi migliori è la deduplicazione dei dati. Questa tecnologia consente al software di archiviazione di eliminare i dati duplicati, risparmiando spazio di archiviazione.
In questo articolo, esploreremo cos'è la deduplicazione e come funziona.
Cos'è la Deduplicazione?
La deduplicazione è il processo di rimozione dei dati ridondanti in modo che le copie extra dei dati non occupino spazio.
Esistono molte metodologie di deduplicazione, ma in generale, la deduplicazione scompone i dati in blocchi e assegna un valore hash a ogni blocco. Ogni volta che arriva un nuovo blocco di dati, il software verifica se il valore hash del nuovo blocco è lo stesso dei vecchi blocchi. Se sono uguali, viene sostituito con un identificatore che punta al vecchio blocco di dati. Questo evita di salvare dati replicati nello stesso ambiente di archiviazione.
Metodi di deduplicazione: quali sono e come sono diversi?
-
Deduplicazione post-elaborazione è la deduplicazione dopo l'archiviazione.
Perché questo metodo funzioni, i dati devono essere trasferiti attraverso la rete prima della deduplicazione. Ciò richiede hardware di archiviazione ad alta capacità e larghezza di banda perché i dati vengono trasferiti nella loro dimensione grezza. Dopo il trasferimento, il software avvia il processo di duplicazione e comprime i dati successivamente.
Quando c'è una prestazione limitata sul dispositivo client, scegliere la deduplicazione post-elaborazione aiuta poiché non richiede molta capacità di calcolo sul lato client. I dati verranno deduplicati solo sul lato archiviazione.
-
Deduplicazione in linea è la deduplicazione prima dell'archiviazione.
Il software completa il processo di deduplicazione prima che i dati vengano trasferiti attraverso la rete per l'archiviazione. Questo processo richiede un'elevata potenza di calcolo poiché il processo di deduplicazione inizia sul lato client. Tuttavia, i dati ridotti di dimensione consumano meno spazio di archiviazione e larghezza di banda, il che di solito compensa il costo della potenza di calcolo.
Quando c'è una capacità del disco limitata sul dispositivo di destinazione, scegliere la deduplicazione in linea è consigliato perché deduplica e comprime i dati prima di inviarli all'archiviazione di destinazione.
Quanto è efficace la deduplicazione dei dati?
L'efficacia della deduplicazione dipende dal rapporto tra la dimensione originale dei dati e la loro dimensione dopo la rimozione della ridondanza. Esaminiamo due rapporti di deduplicazione:
- 100:1 - 100 GB di dati richiedono 1 GB di capacità di archiviazione, con un risparmio di spazio del 99%
- 2:1 - 2 GB di dati richiedono 1 GB di spazio di archiviazione, con un risparmio di spazio del 50%
Più alto è il rapporto, più copie ridondanti dei dati originali esistono. Nel primo caso, la deduplicazione sarebbe altamente efficace perché può rimuovere molti dati ridondanti. Nel secondo caso, è meno efficace perché ci sono meno dati ridondanti.
| Fattori che influenzano il rapporto di deduplicazione: |
|
Una breve nota sulla compressione dei dati
La compressione è un'altra tecnica popolare di ottimizzazione dell'archiviazione dati. È un processo algoritmico che riduce il volume dei dati sostituendo le sequenze di dati identiche con il numero di volte in cui appaiono di seguito. Sebbene risparmi spazio, richiede la decompressione per rendere nuovamente disponibili i dati.
Entrambi i metodi di deduplicazione utilizzano la compressione, ma il metodo di elaborazione in linea ne beneficia di più poiché i dati compressi richiedono meno larghezza di banda di rete per essere trasferiti rispetto ai dati grezzi. Ad esempio, quando si scarica un'applicazione di grandi dimensioni, di solito viene compressa in un file RAR poiché richiede meno tempo per scaricare un file di dimensioni ridotte. Va notato che la compressione è un'attività che richiede molta CPU, quindi se il dispositivo client è troppo vecchio o lento, potrebbe bloccarsi e crashare.
La deduplicazione dei dati è la strada da seguire
La tecnologia di deduplicazione può ridurre i costi di archiviazione e di rete rimuovendo i dati ridondanti. Le aziende non devono investire in hardware di deduplicazione dei dati poiché molti processi di deduplicazione possono essere eseguiti sul cloud o sulla workstation. Il software che include la deduplicazione viene fornito anche con funzionalità di compressione, quindi l'utente può risparmiare ancora più spazio.
Vuoi saperne di più su Strumenti di Qualità dei Dati? Esplora i prodotti Qualità dei dati.

Tian Lin
Tian is a research analyst at G2 for Cloud Infrastructure and IT Management software. He comes from a traditional market research background from other tech companies. Combining industry knowledge and G2 data, Tian guides customers through volatile technology markets based on their needs and goals.
