Google Cloud Dataform est un service entièrement géré qui permet aux équipes de données de développer, tester, contrôler les versions et opérationnaliser des pipelines de transformation de données évolutifs dans BigQuery en utilisant SQL. En s'intégrant parfaitement à BigQuery, Dataform permet aux analystes de données et aux ingénieurs de collaborer efficacement, en appliquant les meilleures pratiques d'ingénierie logicielle telles que le contrôle de version, les tests et la documentation à leurs flux de travail SQL. Cette approche simplifie l'architecture de traitement des données et améliore la fiabilité et la maintenabilité des pipelines de données.
Caractéristiques principales :
- Langage open source basé sur SQL : Dataform Core étend SQL pour faciliter la création de définitions de tables, la gestion des dépendances, l'ajout de descriptions de colonnes et la configuration des assertions de qualité des données au sein d'un seul dépôt.
- Orchestration entièrement gérée et sans serveur : Dataform automatise l'infrastructure opérationnelle nécessaire pour mettre à jour les tables, gérer les dépendances et utiliser les dernières versions de code. Il prend en charge les déclencheurs manuels et la planification via Cloud Composer, Workflows, les pipelines de données de BigQuery Studio ou des services tiers.
- Environnement de développement intégré : Les utilisateurs peuvent définir des tables, recevoir des messages d'erreur en temps réel, visualiser les dépendances, valider les modifications dans Git et planifier des pipelines, le tout depuis une interface web unique. L'intégration avec GitHub et GitLab facilite le contrôle de version et la collaboration sans faille.
Valeur principale et problème résolu :
Dataform répond aux défis de la construction et de la maintenance de pipelines de transformation de données complexes en fournissant une plateforme unifiée qui combine la simplicité de SQL avec des pratiques d'ingénierie logicielle robustes. Il permet aux équipes de données de créer des pipelines de production sans avoir besoin d'une gestion d'infrastructure étendue, accélérant ainsi les cycles de développement et améliorant la qualité des données. En favorisant la collaboration entre les analystes de données et les ingénieurs, Dataform garantit que les transformations de données sont fiables, bien documentées et facilement maintenables.