O que você mais gosta Databricks?
Meus comentários sobre o Lakehouse são específicos para o Unity Catalog (UC):
Governança é tudo sobre ser um "policial mau benevolente" para os públicos da empresa! Essa mensagem, até agora (ou seja, advento do UC), era principalmente/somente possível através de um 'Power Point obsoleto' e, após as equipes de Governança aplicarem padrões de conformidade, possivelmente devido a um evento adverso de violação de dados. O que eu consegui 'mostrar e contar' através de demonstrações ao vivo do DBX UC para os maiores usuários empresariais de provedores de saúde capturou a atenção cativada das pessoas! Essa é a minha experiência. Agora, chegando às funcionalidades que o UC oferece - Integração OKTA para integrar as Identidades de qualquer sistema IAM ao UC, APIs para configurar CONCESSÕES DE ACESSO e criação de OBJETOS DE ESQUEMA, Segurança via RLS/CLM, e acima de tudo, eu sinto, a configuração de acesso entre espaços de trabalho para garantir que LOBs/Equipes com Ativos de Dados em vários Catálogos, vai longe para garantir compartilhamento de dados contínuo e ubíquo.
As funcionalidades permitem que Usuários Avançados que são habilidosos em ANSI SQL executem suas consultas através das três arquiteturas de namespace (catalog.schema.tables) uma vez que o acesso entre WS esteja configurado. Agora, chegando aos Cientistas de Dados que constroem Modelos de ML e Cientistas de Dados Cidadãos, o armazenamento centralizado do Experimento do Modelo com suas funcionalidades pode ser registrado no Unity Catalog para garantir a governança centralizada dos endpoints que permitem o Serviço de Modelos.
O futuro lançamento de ABACS (em oposição a RBACs) poderia oferecer economias de escala/escopo de computação/cluster de uma perspectiva de custo enquanto torna o Mascaramento e a Marcação de Dados Sensíveis em nível DDL contínuos.
Outra funcionalidade ansiosamente aguardada seria a identificação e marcação automatizada de dados sensíveis através da Integração OKERA de todos os "Ativos de Dados registrados no DBx em Catálogos DBx".
O uso de Princípios de Serviço como identidades abre o escopo para gerenciar inteligentemente/abordar a limitação do número de grupos AD/Grupos Globais que podem ser criados.
Estas são minhas observações atuais. Análise coletada por e hospedada no G2.com.
O que você não gosta Databricks?
Não é uma "cutucada no olho" dos engenheiros de soluções que trabalham duro e nos enfrentam, clientes, música, mas...
1. As equipes de engenharia de produto parecem não conseguir digerir as narrativas de governança que as empresas esperam, prontas para uso, sem esperar por um lançamento de produto.
2. O fato de que os cálculos/workspaces centrados no motor Spark verão um código SQL legado pesado com toda a sua diversão (codificação rígida, subconsultas aninhadas, uso de tabelas temporárias, CTAS etc....), as equipes de engenharia de produto parecem não ter tais pessoas na fase de "Design de Produto". O mesmo, ainda mais, para o ponto #1.
3. A documentação disponível publicamente referente a recursos parece estar desatualizada quando comparada com os recursos que estão sendo lançados.
4. O compromisso de entregar um recurso (por exemplo, ABACS) na data definida se estendeu por vários trimestres ao longo de quase dois anos! Quando você promete resolver a fome mundial e continua mudando o objetivo, a credibilidade é prejudicada. Análise coletada por e hospedada no G2.com.