Ce que j'aime le plus à propos d'Azure Databricks, c'est la façon dont il simplifie le traitement des données à grande échelle tout en offrant une flexibilité aux ingénieurs. D'après mon expérience, le plus grand avantage est la plateforme unifiée qui me permet de faire de l'ingénierie des données, des transformations, de l'optimisation des performances et même de l'analytique en un seul endroit sans avoir à passer d'un outil à l'autre. L'intégration avec Spark est transparente, et des fonctionnalités comme les clusters à mise à l'échelle automatique, la planification des tâches et la collaboration sur les notebooks rendent le travail quotidien beaucoup plus efficace. J'apprécie également des fonctionnalités comme Delta Lake qui gère les transactions ACID, l'évolution des schémas et le voyage dans le temps directement sur les lacs de données, ce qui rend les pipelines de production beaucoup plus fiables. En plus de cela, des optimisations comme l'exécution de requêtes adaptatives, l'auto-optimisation, le Z-ordering et la mise en cache aident vraiment lorsqu'on travaille avec de grands ensembles de données. Une autre chose que j'aime est la façon dont il s'intègre bien avec l'écosystème Azure, que ce soit ADLS, ADF, Key Vault ou Unity Catalog pour la gouvernance. Cela réduit beaucoup de frais généraux de configuration et rend les déploiements plus fluides à travers les environnements. Dans l'ensemble, cela me permet de me concentrer davantage sur la résolution des problèmes de données et l'optimisation des performances plutôt que de m'inquiéter de la gestion de l'infrastructure. Avis collecté par et hébergé sur G2.com.
Une chose que je n'aime pas à propos d'Azure Databricks, c'est que la gestion des coûts peut devenir compliquée si les clusters et les tâches ne sont pas surveillés de près. Comme il est si facile de créer des clusters et d'exécuter de grandes charges de travail, les coûts peuvent augmenter rapidement, surtout avec l'auto-scaling ou plusieurs tâches parallèles en cours d'exécution. Cela nécessite donc une bonne gouvernance et une surveillance en place. Un autre domaine est le débogage et le dépannage. Bien que les notebooks soient excellents pour le développement, le débogage des échecs de tâches en production, en particulier les problèmes intermittents de Spark ou d'infrastructure, peut parfois prendre du temps. Les journaux sont disponibles, mais retracer la cause exacte à travers les événements du cluster, l'interface utilisateur de Spark et les exécutions de tâches n'est pas toujours simple. J'ai également remarqué que la gestion du CI/CD et des déploiements (comme le déplacement de notebooks, de workflows, de configurations entre les environnements) n'est pas aussi fluide par défaut par rapport aux dépôts de code traditionnels. Cela s'améliore avec les Databricks Asset Bundles et Repos, mais nécessite encore une configuration minutieuse. Cela dit, la plupart de ces problèmes sont gérables avec les meilleures pratiques : contrôles des coûts, surveillance et processus DevOps appropriés. Avis collecté par et hébergé sur G2.com.
L'évaluateur a téléchargé une capture d'écran ou a soumis l'évaluation dans l'application pour les vérifier en tant qu'utilisateur actuel.
Validé via un compte e-mail professionnel
Avis organique. Cet avis a été rédigé entièrement sans invitation ni incitation de la part de G2, d'un vendeur ou d'un affilié.
Cet avis a été traduit de English à l'aide de l'IA.





