
Come ingegnere dei dati che lavora con Databricks da due anni, posso onestamente dire che la piattaforma ha completamente trasformato il nostro approccio ai progetti di ingegneria dei dati. Prima di Databricks, io e il mio team affrontavamo spesso sfide nella gestione di grandi set di dati e nell'assicurare una collaborazione fluida tra ingegneri dei dati e data scientist. C'erano momenti in cui i flussi di lavoro sembravano disgiunti e risolvere problemi attraverso diversi strumenti consumava molto del nostro tempo.
Databricks ha cambiato tutto questo. La funzione dei notebook collaborativi, in particolare, è stata rivoluzionaria. Ora posso lavorare senza problemi con i data scientist in tempo reale, risolvendo problemi e iterando soluzioni molto più velocemente. Ad esempio, durante un progetto recente, siamo stati in grado di perfezionare un modello di machine learning in pochi giorni, grazie alla possibilità di condividere facilmente i notebook e di eseguire rapidamente esperimenti insieme. Questo livello di collaborazione richiedeva settimane con gli strumenti precedenti.
La funzione di auto-scaling è stata una salvezza. Ricordo vividamente le difficoltà con i problemi di prestazioni durante l'elaborazione di grandi set di dati sulla nostra vecchia infrastruttura. Ora, Databricks regola automaticamente le risorse in base al carico di lavoro, quindi non dobbiamo mai preoccuparci di gestire la potenza di calcolo. Questo ha ridotto drasticamente i tempi di elaborazione. Ad esempio, un lavoro di trasformazione dei dati che richiedeva ore ora si completa in una frazione del tempo, permettendoci di consegnare i progetti più velocemente.
Delta Lake è stato anche inestimabile. Prima di iniziare a usarlo, la coerenza e la qualità dei dati erano preoccupazioni costanti, specialmente quando si trattava di fonti di dati grandi e variegate. Ora, con Delta Lake, possiamo fidarci che i nostri dati non solo siano di alta qualità, ma anche facilmente accessibili e interrogabili. Un esempio particolare è stato quando abbiamo dovuto ricostruire una pipeline di dati complessa. Delta Lake ci ha permesso di lavorare con aggiornamenti incrementali dei dati, rendendo il processo molto più efficiente e affidabile.
In breve, Databricks ha notevolmente ridotto i tempi di sviluppo e migliorato la qualità complessiva delle nostre consegne. Mi ha aiutato a semplificare flussi di lavoro complessi, migliorare la collaborazione tra i team e, soprattutto, fornire soluzioni basate sui dati più velocemente e con maggiore fiducia. Recensione raccolta e ospitata su G2.com.
Ottimizzazione dei costi - Sebbene apprezzi le informazioni dettagliate sulla fatturazione fornite, prevedere i costi per progetti di grandi dimensioni o ambienti condivisi può ancora sembrare opaco. Molti team faticano a controllare i costi fuori controllo derivanti da cluster inattivi o configurazioni subottimali. Introdurre un autoscaling più intelligente e raccomandazioni su misura per i nostri carichi di lavoro sarebbe inestimabile. Ad esempio, avvisi per "cluster inattivi" o "punti caldi di costo" nel nostro ambiente potrebbero proattivamente risparmiare budget e migliorare l'efficienza.
Governance e Sicurezza Semplificate - Gestire l'accesso a livelli dettagliati può essere oneroso. Ad esempio, controllare chi può visualizzare rispetto a chi può eseguire un notebook o un lavoro spesso richiede soluzioni alternative. I registri di audit sono eccellenti, ma dare loro un senso per ottenere informazioni utili a volte sembra risolvere un puzzle. Un controllo degli accessi basato su attributi (ABAC) migliorato e controlli più intuitivi basati su interfaccia utente per la gestione delle autorizzazioni semplificherebbero notevolmente le operazioni.
Esperienza Utente - L'interfaccia collaborativa del notebook è una delle caratteristiche distintive di Databricks, tuttavia ci sono aree in cui potrebbe essere più fluida. La collaborazione è a volte ostacolata quando due utenti modificano lo stesso notebook. Il controllo delle versioni sembra basilare rispetto ai sistemi basati su Git. Il debugging all'interno dei notebook, specialmente per carichi di lavoro non Python, potrebbe richiedere miglioramenti significativi. Aggiungere commenti in linea, strumenti di risoluzione dei conflitti e funzionalità di debugging robuste porterebbe la piattaforma al livello successivo. Un feed di attività a livello di spazio di lavoro per mostrare cosa sta accadendo nei progetti condivisi sarebbe anche estremamente utile.
Automazione del Flusso di Lavoro - Includere approfondimenti guidati dall'IA per ottimizzare i flussi di lavoro (ad esempio, individuare colli di bottiglia o inefficienze). Abilitare un'integrazione più semplice con strumenti di automazione del flusso di lavoro esterni. Recensione raccolta e ospitata su G2.com.
Siamo lieti di sapere che la piattaforma Databricks Data Intelligence ha trasformato il modo in cui affronti i progetti di ingegneria dei dati. Apprezziamo molto il tuo feedback positivo sui notebook collaborativi, l'auto-scaling e le funzionalità di Delta Lake. Comprendiamo le tue preoccupazioni riguardo all'ottimizzazione dei costi, alla governance e sicurezza, all'esperienza utente e all'automazione dei flussi di lavoro, e le considereremo mentre lavoriamo per migliorare la nostra piattaforma. Grazie sinceramente per aver dedicato del tempo a scrivere un feedback approfondito sulla piattaforma—ci piace che tu comprenda come Databricks promuova una cultura basata sui dati!
Il revisore ha caricato uno screenshot o inviato la recensione in-app verificandosi come utente attuale.
Validato tramite LinkedIn
A questo recensore è stato offerto un incentivo nominale come ringraziamento per aver completato questa recensione.
Invito da G2 per conto di un venditore o affiliato. A questo recensore è stato offerto un incentivo nominale come ringraziamento per aver completato questa recensione.
Questa recensione è stata tradotta da English usando l'IA.





