Cloudera Data Engineering est un service complet et natif du cloud conçu pour permettre aux équipes de données d'entreprise de construire, automatiser et faire évoluer en toute sécurité des pipelines de données à travers des environnements divers, y compris les clouds publics, les centres de données sur site et les configurations hybrides. En tirant parti des technologies open-source telles qu'Apache Spark, Apache Iceberg et Apache Airflow, il offre une plateforme flexible et efficace pour gérer des flux de travail de données complexes.
Caractéristiques clés et fonctionnalités :
- Apache Spark conteneurisé sur Iceberg : Facilite des pipelines de données évolutifs et gouvernés en exécutant des charges de travail Spark sur Iceberg dans des environnements conteneurisés, assurant flexibilité et portabilité.
- Orchestration en libre-service avec Apache Airflow : Permet aux utilisateurs de concevoir et d'automatiser des flux de travail complexes via une interface conviviale, simplifiant la gestion des tâches et le contrôle des dépendances.
- Sessions interactives et connectivité IDE externe : Prend en charge des sessions interactives à la demande pour des tests et développements rapides, avec une intégration transparente aux environnements de développement intégrés (IDE) externes comme VSCode et Jupyter Notebook.
- Capture de données modifiées intégrée (CDC) : Assure la fraîcheur des données en capturant et traitant les modifications au niveau des lignes à partir des systèmes sources, facilitant les mises à jour continues vers les applications en aval.
- Gestion des métadonnées et traçabilité : Offre une visibilité complète sur les pipelines de données avec une gestion intégrée des métadonnées et un suivi de la traçabilité, améliorant la gouvernance et la conformité.
- APIs riches et dépannage visuel : Propose des APIs robustes pour l'automatisation et l'intégration, ainsi que des outils visuels pour la surveillance en temps réel et l'optimisation des performances, aidant à un dépannage efficace.
Valeur principale et résolution de problèmes :
Cloudera Data Engineering répond aux défis de la gestion de pipelines de données complexes en offrant une plateforme unifiée qui améliore la productivité, assure l'intégrité des données et optimise l'utilisation des ressources. Il permet aux équipes de données de :
- Accélérer le développement de pipelines de données : En automatisant les flux de travail et en fournissant des outils intuitifs, il réduit le temps et les efforts nécessaires pour construire et déployer des pipelines de données.
- Assurer la qualité et la gouvernance des données : La gestion intégrée des métadonnées et le suivi de la traçabilité offrent transparence et contrôle, garantissant l'exactitude et la conformité des données.
- Optimiser les coûts et les ressources : Des fonctionnalités comme l'observabilité au niveau des charges de travail, l'autoscaling et le partage de données sans ETL aident à surveiller et optimiser les coûts des pipelines, conduisant à un coût total de possession réduit.
En unifiant le traitement des données structurées et non structurées avec des standards ouverts, Cloudera Data Engineering permet aux organisations de tirer pleinement parti de leurs actifs de données, stimulant la prise de décision éclairée et l'innovation.
Vendeur
ClouderaDiscussions
Communauté de Cloudera Data Engineering