I database a colonne larghe sono database NoSQL che memorizzano i dati in tabelle, righe e colonne. Il nome e i formati delle colonne possono variare da una riga all'altra. I database a colonne larghe sono generalmente interpretati come archivi chiave-valore 2D o chiave chiave-valore. I database a colonne larghe sono anche conosciuti come database a famiglie di colonne. Questi database sono utilizzati per flussi di lavoro transazionali. I database a colonne larghe possono essere utilizzati in casi con grandi set di dati distribuiti su più nodi di database. Dato il grande volume di dati nell'IoT, i data scientist di solito utilizzano i database a colonne larghe per memorizzare i dati dell'IoT e dei profili utente. È anche utilizzato per gestire grandi magazzini di dati grazie alla sua capacità di scalare.
I database a colonne larghe aiutano la scalabilità orizzontale dei dati e forniscono coerenza dei dati. I dati sono memorizzati in celle di colonne che sono raggruppate in famiglie di colonne. I database a colonne larghe possono filtrare i dati per valore. I database a colonne larghe differiscono dai database colonnari per quanto riguarda l'archiviazione dei dati. I database colonnari memorizzano ogni colonna separatamente su un disco, mentre i database a colonne larghe supportano famiglie di colonne memorizzate insieme. I database a colonne larghe differiscono anche dai database relazionali. I database relazionali hanno più tabelle mentre i database a colonne larghe hanno più famiglie di colonne.
Per qualificarsi per l'inclusione nella categoria dei Database a Colonne Larghe, un prodotto deve:
Contenere chiave-valore 2D o chiave chiave-valore
Avere clustering per database distribuito
Fornire gestione del tempo di vita (TTL)
Supportare una varietà di tipi di dati come String, Boolean, Integer e Double
Fornire una struttura tridimensionale (riga, colonna e tempo)