I sistemi di elaborazione e distribuzione dei big data offrono un modo per raccogliere, distribuire, archiviare e gestire set di dati massicci e non strutturati in tempo reale. Queste soluzioni forniscono un modo semplice per elaborare e distribuire i dati tra cluster di calcolo parallelo in modo organizzato. Progettati per la scalabilità, questi prodotti sono creati per funzionare su centinaia o migliaia di macchine simultaneamente, ciascuna fornendo capacità di calcolo e archiviazione locali. I sistemi di elaborazione e distribuzione dei big data offrono un livello di semplicità al comune problema aziendale della raccolta dati su larga scala e sono più spesso utilizzati da aziende che necessitano di organizzare una quantità esorbitante di dati. Molti di questi prodotti offrono una distribuzione che funziona sopra lo strumento open-source di clustering dei big data Hadoop.
Le aziende hanno comunemente un amministratore dedicato alla gestione dei cluster di big data. Il ruolo richiede una conoscenza approfondita dell'amministrazione di database, dell'estrazione dei dati e della scrittura di linguaggi di scripting del sistema host. Le responsabilità dell'amministratore spesso includono l'implementazione dell'archiviazione dei dati, il mantenimento delle prestazioni, la manutenzione, la sicurezza e l'estrazione dei set di dati. Le aziende spesso utilizzano strumenti di analisi dei big data per poi preparare, manipolare e modellare i dati raccolti da questi sistemi.
Per qualificarsi per l'inclusione nella categoria dei Sistemi di Elaborazione e Distribuzione dei Big Data, un prodotto deve:
Raccogliere ed elaborare set di big data in tempo reale
Distribuire i dati tra cluster di calcolo parallelo
Organizzare i dati in modo tale che possano essere gestiti dagli amministratori di sistema e estratti per l'analisi
Consentire alle aziende di scalare le macchine al numero necessario per archiviare i propri dati