Cosa ti piace di più di Databricks?
Unity Catalog è stato il singolo valore aggiunto più grande per la nostra migrazione aziendale. Siamo passati da un'architettura Hive Metastore a Unity Catalog e abbiamo ottenuto governance centralizzata, tracciamento della lineage e controllo degli accessi dettagliato su tutti i nostri asset di dati senza dover integrare strumenti di terze parti. Per un'organizzazione multi-dominio (finanza, produzione, catena di approvvigionamento, approvvigionamento), avere un unico catalogo che applica una denominazione e permessi coerenti attraverso i livelli bronzo, argento, oro e platino ci ha risparmiato settimane di lavoro manuale sulle policy.
UI/UX: L'esperienza del notebook con Spark SQL e PySpark inline, combinata con il browser dei file del workspace, rende semplice per il nostro team sviluppare e testare trasformazioni in modo iterativo. L'editor SQL per query ad-hoc contro le tabelle di Unity Catalog è pulito e reattivo.
Integrazioni: Il supporto nativo per Delta Lake significa che non gestiamo conversioni di formato. L'integrazione con Azure Key Vault tramite secret scopes (dbutils.secrets.get) mantiene le credenziali fuori dal codice. L'integrazione ADF per l'orchestrazione nel nostro ambiente V1 è stata senza problemi, e i Databricks Asset Bundles (DAB) per il deployment V2 ci offrono un percorso CI/CD pulito con configurazioni databricks.yml mirate a dev/qa/prod senza scripting personalizzato.
Prestazioni: Passare a CTE rispetto a viste temporanee nei nostri notebook Gold ha ridotto notevolmente la pressione sulla memoria del cluster. La possibilità di dimensionare correttamente i cluster per ambiente (1 worker per dev, 3 per produzione) con nodi Standard_D4ds_v5 mantiene i costi prevedibili pur mantenendo le prestazioni per i nostri carichi di lavoro ETL batch.
Prezzi/ROI: Il modello di calcolo pay-as-you-go abbinato a cluster in modalità di sicurezza per singolo utente significa che non stiamo sovrapponendo le risorse. Consolidare il nostro livello ETL, di governance e di BI in un'unica piattaforma ha eliminato le licenze per strumenti separati di catalogazione, orchestrazione e qualità dei dati.
AI/Intelligenza (Genie): Genie Spaces è stata una vittoria inaspettata. I nostri analisti aziendali in finanza e catena di approvvigionamento possono porre domande in linguaggio naturale contro tabelle Gold/Platinum curate senza scrivere SQL. Ha ridotto il numero di richieste di report ad-hoc che arrivano al team dei dati, offrendo agli utenti di dominio un percorso self-service che rispetta comunque i permessi di Unity Catalog.
Supporto/Onboarding: La documentazione è completa e l'approccio basato sulle competenze per l'apprendimento (bundle, Unity Catalog, lavori, SQL) si adatta bene a come il nostro team lavora effettivamente. L'onboarding di nuovi ingegneri all'architettura V2 ha richiesto circa la metà del tempo rispetto a V1 perché le convenzioni della piattaforma (architettura medaglione, asset bundle, denominazione del catalogo) sono ben documentate e coerenti. Recensione raccolta e ospitata su G2.com.
Cosa non ti piace di Databricks?
UI/UX: L'editor del notebook sembra ancora indietro rispetto agli IDE dedicati. Nessuna ricerca nativa su più file, supporto limitato per il refactoring e l'interfaccia utente dell'integrazione git è goffa per i team che gestiscono dozzine di notebook attraverso pacchetti di flussi di lavoro. Abbiamo finito per fare tutto lo sviluppo reale in VS Code e trattare lo spazio di lavoro Databricks come un obiettivo di distribuzione, il che aggiunge attrito. Il browser dei file dello spazio di lavoro non gestisce bene le strutture delle cartelle quando hai più di 50 notebook organizzati per dominio: non ci sono filtri, tag o preferiti.
Integrazioni: I Databricks Asset Bundles (DAB) sono un passo avanti, ma la documentazione presenta lacune per distribuzioni complesse multi-bundle. Gestiamo un bundle Global_Utilities condiviso da cui dipendono altri bundle di flussi di lavoro, e far funzionare in modo affidabile i riferimenti tra bundle attraverso gli obiettivi dev/qa/prod ha richiesto molti tentativi ed errori. L'integrazione ADF-to-Databricks funziona, ma il debug delle esecuzioni di pipeline fallite significa saltare tra l'interfaccia di monitoraggio ADF e le esecuzioni di job Databricks senza una vista unificata. Una stretta integrazione tra orchestrazione e monitoraggio del calcolo farebbe risparmiare ore di risoluzione dei problemi.
Prestazioni: I tempi di avvio a freddo dei cluster rimangono un punto dolente per i flussi di lavoro di sviluppo. Avviare un cluster a nodo singolo Standard_D4ds_v5 richiede 4-7 minuti, il che interrompe il flusso quando si sta iterando sulla logica del notebook. Il calcolo serverless aiuta ma non è ancora disponibile per tutti i tipi di carico di lavoro, e il premio di costo è difficile da giustificare per ambienti di sviluppo/test.
Prezzi/ROI: Il modello di prezzo DBU è opaco per la pianificazione della capacità. Stimare i costi mensili per un progetto con oltre 30 job programmati, cluster di sviluppo interattivi e query SQL warehouse richiede la costruzione di fogli di calcolo personalizzati perché gli strumenti di gestione dei costi integrati non forniscono una previsione chiara per flusso di lavoro o dominio. Siamo stati sorpresi da picchi di costo da job che sono durati più del previsto senza un modo semplice per impostare avvisi di budget per job.
Supporto/Onboarding: I tempi di risposta del supporto aziendale sono incoerenti. Problemi critici con i permessi di Unity Catalog durante la nostra migrazione hanno richiesto 3-5 giorni lavorativi per la triage iniziale, il che ha bloccato la nostra timeline di distribuzione. I forum della comunità sono utili per modelli comuni, ma per i casi limite di Unity Catalog (lineage cross-catalog, eredità complessa dei permessi), la base di conoscenza è scarsa.
AI/Intelligenza: Genie è promettente ma ancora grezzo per l'uso in produzione. Ha difficoltà con join su più di 3-4 tabelle, a volte genera SQL errato contro il nostro livello Gold, e non c'è un modo semplice per curare o correggere le sue risposte per migliorare l'accuratezza nel tempo. I nostri utenti aziendali si sono entusiasmati, l'hanno provato, hanno ottenuto risposte sbagliate su domande moderatamente complesse e hanno perso fiducia. Un ciclo di feedback in cui gli esperti di dominio possono segnalare e correggere gli output di Genie lo renderebbe veramente pronto per la produzione. Recensione raccolta e ospitata su G2.com.