# Databricks Reviews
**Vendor:** Databricks Inc.  
**Category:** [Traitement et distribution des mégadonnées](https://www.g2.com/fr/categories/big-data-processing-and-distribution)  
**Average Rating:** 4.6/5.0  
**Total Reviews:** 785
## About Databricks
Databricks est une plateforme unifiée de données et d&#39;IA qui aide les organisations à construire, gouverner et faire évoluer des pipelines de données, des analyses, des applications d&#39;apprentissage automatique, d&#39;IA et des agents. Plus de 20 000 organisations dans le monde — y compris adidas, AT&amp;T, Bayer, Block, Mastercard, Rivian, Unilever, et 70 % du Fortune 500 — comptent sur Databricks pour travailler avec des données d&#39;entreprise et de l&#39;IA à grande échelle. Basée à San Francisco avec plus de 30 bureaux dans le monde, Databricks offre une plateforme unifiée qui inclut Agent Bricks, Lakeflow, Lakehouse, Lakebase, Genie et Unity Catalog. Fondée en 2013 par les créateurs originaux d&#39;Apache Spark™, Delta Lake, MLflow et Unity Catalog, Databricks est construite sur une architecture de lakehouse ouverte qui réunit données, analyses et IA. La plateforme est utilisée par des ingénieurs de données, des scientifiques de données, des analystes, des développeurs, des équipes d&#39;apprentissage automatique, des équipes d&#39;IA et des utilisateurs professionnels pour collaborer tout au long du cycle de vie des données et de l&#39;IA. Les principales capacités de Databricks incluent : - Ingénierie des données : Construire, automatiser et gérer des pipelines de données batch, en streaming et en temps réel fiables. - Analytique et intelligence d&#39;affaires : Exécuter des analyses SQL, créer des tableaux de bord et permettre aux équipes commerciales d&#39;explorer les données. - Gouvernance des données : Découvrir, sécuriser et gérer les actifs de données et d&#39;IA à travers les équipes, les clouds et les charges de travail. - Apprentissage automatique et IA : Développer des modèles, construire des applications d&#39;IA générative et créer des agents d&#39;IA de qualité production. - Applications de données : Construire et déployer des applications basées sur les données en utilisant des données d&#39;entreprise gouvernées. Disponible sur AWS, Azure et Google Cloud, Databricks aide les organisations à travailler à travers les clouds, à réduire les silos de données et à simplifier la collaboration entre les équipes et les outils. Les clients utilisent Databricks pour des cas d&#39;utilisation tels que la personnalisation client, la détection de fraude, la maintenance prédictive, l&#39;analyse en temps réel, la cybersécurité, la recherche en santé, la gestion des risques financiers, l&#39;optimisation de la chaîne d&#39;approvisionnement et la prise de décision alimentée par l&#39;IA. Databricks est utilisé dans des industries telles que les services financiers, la santé et les sciences de la vie, le commerce de détail, la fabrication, l&#39;énergie et le secteur public. Les organisations utilisent la plateforme pour moderniser l&#39;infrastructure de données, accélérer l&#39;adoption de l&#39;IA et transformer les données d&#39;entreprise en valeur commerciale.


## Databricks Pros & Cons
**What users like:**

- Les utilisateurs louent la **facilité d&#39;utilisation et les nombreuses fonctionnalités** de Databricks, améliorant leurs tâches de traitement de données et d&#39;apprentissage automatique. (192 reviews)
- Les utilisateurs louent la **facilité d&#39;utilisation** de Databricks, améliorant leur expérience globale grâce à son interface intuitive. (155 reviews)
- Les utilisateurs apprécient les **intégrations transparentes** de Databricks, améliorant le traitement en temps réel et prenant en charge divers langages de développement. (141 reviews)
- Les utilisateurs apprécient la **collaboration fluide** que Databricks offre, améliorant le travail d&#39;équipe sur les projets de données avec des insights en temps réel. (114 reviews)
- Les utilisateurs apprécient les **fonctionnalités analytiques intégrées** de Databricks, qui améliorent les opérations et fournissent des insights complets sur la technologie. (113 reviews)
- Évolutivité (111 reviews)
- Intégration ML (106 reviews)
- Les utilisateurs apprécient les **intégrations faciles** de Databricks, se connectant sans effort à l&#39;infrastructure cloud et améliorant la gestion des données. (102 reviews)
- Apprentissage automatique (97 reviews)
- Les utilisateurs adorent les **fonctionnalités efficaces de gestion des données** de Databricks, simplifiant les flux de travail et améliorant les capacités de prise de décision. (87 reviews)

**What users dislike:**

- Les utilisateurs notent une **courbe d&#39;apprentissage** significative avec Databricks, notamment en raison de ses autorisations complexes et de ses modes de calcul. (78 reviews)
- Les utilisateurs trouvent que Databricks est **cher** , surtout lorsqu&#39;il s&#39;agit de gérer de grandes quantités de données, ce qui limite son accessibilité pour certains clients. (71 reviews)
- Les utilisateurs trouvent la **courbe d&#39;apprentissage abrupte** de Databricks difficile, en particulier pour ceux qui sont nouveaux dans les outils de big data. (64 reviews)
- Les utilisateurs trouvent la **complexité** de Databricks difficile, surtout avec les fonctionnalités avancées et les exigences de configuration initiale. (45 reviews)
- Les utilisateurs rencontrent un **processus de configuration complexe** au départ, mais le support aide à simplifier l&#39;expérience au fil du temps. (35 reviews)
- Problèmes de performance (34 reviews)
- Les utilisateurs rencontrent des **problèmes d&#39;interface utilisateur non intuitifs** qui entraînent des erreurs aléatoires et compliquent l&#39;expérience pour les utilisateurs non techniques. (34 reviews)
- Mauvaise conception de l&#39;interface utilisateur (33 reviews)
- Les utilisateurs trouvent que les **fonctionnalités manquantes** dans Databricks sont limitantes, entravant la productivité et compliquant l&#39;expérience globale. (31 reviews)
- Coût (29 reviews)

## Databricks Reviews
  ### 1. Databricks dans mon cas : Intégrations multiples, interface utilisateur intuitive et performance fiable

**Rating:** 4.0/5.0 stars

**Reviewed by:** Yelnur K. | Schedule Manager, Compagnies aériennes/Aviation, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 19, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est sa partie Intégrations. Au travail, nous intégrons la base de données avec plusieurs sources de données. De plus, je ne peux pas terminer mon avis sans mentionner le design UX et UI, qui rend le flux de travail global intuitif et vraiment convivial. En ce qui concerne la rapidité des processus, cela ne nous a jamais offensés. Cela fonctionne comme prévu. Comparativement aux prix du marché, le prix du service est assez fiable pour nous. Il y a un centre d'aide chez Databricks, si vous ne trouvez pas de réponses à vos questions, il y a des spécialistes qui peuvent vous aider avec vos demandes. Par exemple, je me souviens d'un cas où nous avions un problème lors d'un processus d'examen, ils nous ont aidés à résoudre ce problème.

**Que n’aimez-vous pas à propos de Databricks?**

Concernant les défauts de la qualité de l'IA de Genie. Les gars, cela pourrait être amélioré, surtout la partie raisonnement. Aussi, je peux mentionner le cas où nous avons eu un problème avec le processus d'examen. Les spécialistes nous ont aidés, mais cela nous a causé quelques désagréments. Eh bien,

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Dans l'aviation, nous utilisons ce logiciel pour l'analyse des données. Nous avons automatisé de nombreux processus que les outils de travail simples ne peuvent pas gérer. Nous intégrons également plusieurs outils (dont je ne peux pas mentionner les noms pour des raisons de sécurité). En particulier, cela nous aide à analyser la demande des passagers par itinéraire et par saison. Nous combinons et analysons de grands ensembles de données à l'aide de ce logiciel. Dans l'ensemble, c'est un bon outil. Notre équipe est satisfaite.

**Official Response from Sara Steffen:**

> Merci pour vos commentaires détaillés. Nous sommes ravis d'apprendre que Databricks a été essentiel pour automatiser les processus et analyser de grands ensembles de données pour vos besoins en aviation. Nous prenons vos commentaires sur Genie AI et les processus de support au sérieux et nous nous engageons à apporter des améliorations dans ces domaines.

  ### 2. Plateforme Delta Lake tout-en-un qui rend l'ETL rapide et économique

**Rating:** 5.0/5.0 stars

**Reviewed by:** Kavipriya S. | Data Engineer, Technologie de l'information et services, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Delta Lake + Workflows + Unity Catalog sur une seule plateforme ont éliminé le besoin de rassembler des outils d'ingestion, de transformation et de gouvernance séparés. En tant qu'ingénieur de données, je passe plus de temps à construire des pipelines et moins de temps à gérer l'infrastructure. L'expérience du notebook et l'auto-scalabilité des clusters rendent l'itération sur des ETL complexes rapide et rentable.

**Que n’aimez-vous pas à propos de Databricks?**

Les temps de démarrage des clusters et la prévisibilité des coûts restent les principaux points de friction pour moi. Les démarrages à froid peuvent vraiment ralentir le travail ad hoc, et les coûts DBU doivent être surveillés de près pour éviter les mauvaises surprises. L'interface utilisateur des flux de travail s'est beaucoup améliorée au fil du temps, mais elle ne semble toujours pas aussi flexible que les orchestrateurs dédiés lorsque vous traitez des DAGs plus complexes. Même ainsi, je considère cela principalement comme des éléments de finition - la valeur fondamentale de la plateforme les surpasse largement.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout un problème majeur de fragmentation dans notre pile d'ingénierie des données. Auparavant, nous dépendions d'outils séparés pour l'ingestion, la transformation, l'orchestration et la gouvernance—chacun avec sa propre courbe d'apprentissage, ses frais de maintenance et ses points de défaillance potentiels. Maintenant, tout est consolidé en une seule plateforme.

En pratique, cela nous aide à exécuter des pipelines ETL à grande échelle qui traitent des millions d'enregistrements quotidiennement, avec Delta Lake améliorant la fiabilité grâce aux transactions ACID, à l'application de schémas et au voyage dans le temps pour le débogage. Cela comble également le fossé de collaboration entre les ingénieurs de données et les data scientists : nous construisons les pipelines, et ils peuvent consommer les mêmes tables directement dans les notebooks sans duplication de données ni problèmes de synchronisation.

Unity Catalog a résolu un problème de gouvernance de longue date en centralisant le contrôle d'accès à travers les espaces de travail. Dans l'ensemble, le résultat est un développement de pipeline plus rapide, moins d'incidents de production liés à des problèmes de qualité des données, et beaucoup moins de code de liaison à maintenir. Ce qui prenait des semaines à construire et stabiliser prend maintenant des jours.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que Databricks a consolidé votre pile d'ingénierie des données et amélioré la fiabilité de vos pipelines ETL. Nous comprenons vos commentaires concernant les temps de démarrage des clusters et la prévisibilité des coûts, et nous travaillons activement à optimiser ces aspects de notre plateforme pour offrir une meilleure expérience utilisateur.

  ### 3. Analytique en libre-service, et performance solide du pilote automatique

**Rating:** 4.0/5.0 stars

**Reviewed by:** Bob K. | Data and Analytics Leader, Technologie de l'information et services, Entreprise (> 1000 employés)

**Reviewed Date:** May 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

La gestion des autorisations à travers des équipes de vente et de marketing diversifiées a été simplifiée. Le catalogue nous a permis de sécuriser facilement les données sensibles tout en permettant à notre équipe et aux analystes de se servir eux-mêmes. La traçabilité automatisée au niveau des colonnes a été très utile pour retracer comment nos métriques de prévision de pipeline étaient calculées.

J'aime la performance en pilote automatique. Mon équipe a passé moins de temps sur la maintenance manuelle de la base de données. L'optimisation prédictive a automatiquement pris en charge la compaction des fichiers (Optimize) et nettoyé les anciens fichiers (Vacuum). De plus, le Clustering Liquide a maintenu nos tables de transactions de vente en forte croissance performantes efficacement sans que nous ayons besoin de concevoir et de maintenir manuellement des stratégies de partitionnement complexes.

Le support pour les formats ouverts comme Delta Lake et Apache Iceberg a assuré que nos données restent portables. Grâce aux API ouvertes et au partage Delta, nous avons pu partager en toute sécurité des insights avec des partenaires commerciaux externes sans avoir à répliquer et déplacer d'énormes ensembles de données.

Une chose de plus, la plateforme a permis à notre équipe d'ingénierie des données et aux analystes de collaborer en un seul endroit. Cet alignement entre l'architecture technique et la stratégie commerciale a facilité la conversion des modèles de pipeline technique en valeur commerciale.

**Que n’aimez-vous pas à propos de Databricks?**

Comme nous le savons, les outils de vente et de marketing changent fréquemment leurs schémas de données, par exemple en ajoutant ou en renommant des champs personnalisés dans Salesforce. Lorsque ces mises à jour se produisaient, nos flux d'ingestion utilisant le chargeur automatique ou le streaming structuré échouaient et nécessitaient des redémarrages manuels pour s'adapter. Cela causait occasionnellement des retards temporaires dans la mise à jour de nos tableaux de bord opérationnels.

Le suivi de l'attribution marketing complexe et multi-touch et des parcours clients nécessitait des opérations de streaming avec état (telles que les jointures et les agrégations). La gestion des journaux d'événements désordonnés et des données arrivant en retard dans ces flux s'est avérée très complexe et a nécessité une ingénierie personnalisée significative pour garantir que les résultats restent précis.

Parce que les tables gérées par Unity Catalog ne prennent pas en charge l'accès basé sur le chemin, nous avons dû nous assurer que tout le code hérité et les systèmes externes passaient à l'utilisation de conventions de nommage de namespace à trois niveaux appropriées, ce qui nécessitait un effort initial de refactorisation pour éviter les erreurs d'accès aux données.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Chez Basware, mon principal objectif était de permettre aux équipes de vente et de marketing mondiales d'optimiser leurs performances, de construire des prévisions de pipeline précises et d'assurer une gouvernance solide autour de nos données clients. Databricks a servi de plateforme fondamentale pour nous aider à atteindre ces objectifs.

Nous avons utilisé Lakeflow Connect, en particulier le connecteur Salesforce, ainsi que d'autres méthodes d'ingestion pour extraire des données de notre CRM, des systèmes d'automatisation du marketing et des fichiers locaux dans le lakehouse. Cela nous a permis de construire une vue consolidée et unique du client.

Les pipelines déclaratifs Lakeflow Spark nous ont aidés à organiser nos données brutes de marketing et de vente en architecture Medallion. Cela signifie que nous pouvions transformer des journaux d'événements marketing semi-structurés et des enregistrements CRM en ensembles de données structurés prêts pour l'intelligence d'affaires et les prévisions.

Pour soutenir le VP des opérations de vente et de marketing et d'autres dirigeants seniors, nous avons déployé des espaces génie AI/BI. Cela a permis aux cadres de consulter les métriques de pipeline et les tendances de prévision en utilisant le langage naturel. Pour les rapports standard, nous avons utilisé Partner Connect pour lier nos tables Gold propres directement à des outils BI externes.

**Official Response from Jess Darnell:**

> It's great to hear how Databricks has helped you optimize sales and marketing performance, build accurate pipeline forecasts, and ensure robust governance around customer data. We're committed to providing a platform that supports your business goals and enables efficient data management and analysis. Thank you for sharing your use case with us.

  ### 4. Des pipelines de télémétrie puissants à faible latence avec des tables de streaming et des vues matérialisées

**Rating:** 4.0/5.0 stars

**Reviewed by:** Jose P. | Head of Network Strategy, Télécommunications, Entreprise (> 1000 employés)

**Reviewed Date:** May 26, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Dans un environnement de télécommunications traitant des volumes massifs de données provenant de réseaux fixes et mobiles (GPON, cœur 4g/5g et RAN), ingérant de manière incrémentale des télémétries de fréquence non structurées ou semi-structurées à partir de nos fonctions virtualisées comme vEPC, vCPE ou VHGW) avec une configuration minimale.

Mon équipe travaille en étroite collaboration avec les fonctions réseau virtualisées et l'informatique en périphérie multi-accès. Des fonctionnalités comme les tables de streaming et les vues matérialisées nous aident à construire des pipelines à faible latence qui traitent les métriques de performance réseau en quasi temps réel, nous aidant à surveiller les indicateurs de performance réseau et l'efficacité de la qualité de service.

Parce que l'expertise principale de mon équipe réside dans la conception de réseaux et la virtualisation des systèmes plutôt que dans l'administration de bases de données, l'optimisation prédictive et le clustering liquide sont très bénéfiques. Ils gèrent de manière autonome la maintenance des tables, la compaction des fichiers et l'optimisation de la disposition des données, libérant ainsi nos ressources pour nous concentrer sur l'architecture réseau.

**Que n’aimez-vous pas à propos de Databricks?**

Les fonctions réseau virtualisées, les routeurs et le matériel désagrégé subissent fréquemment des mises à jour logicielles, qui introduisent souvent des changements subtils dans les schémas de sortie de télémétrie. Lors de l'utilisation de flux structuré ou de chargeur automatique, ces dérives de schéma provoquent l'échec de nos requêtes de streaming, nécessitant un redémarrage manuel du flux pour replanifier le schéma.

Lorsque nous devons mettre à jour la logique d'un KPI réseau complexe défini dans une vue matérialisée, tout changement de la requête déclenche un recalcul complet de la vue. Étant donné l'ampleur massive des ensembles de données de transactions télécoms, cela peut entraîner des coûts de calcul notables.

Nous comptons sur une variété d'outils de données au sein de notre écosystème TIC, mais toutes les solutions présentées dans Partner Connect ne prennent pas en charge nativement Unity Catalog. Cela peut créer des obstacles d'intégration et de gouvernance lorsque nous essayons de connecter certains outils d'analyse et de préparation de données tiers à notre lac de données sécurisé.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Nous ingérons des flux continus de données de performance provenant de fonctions réseau virtualisées et de couches de transport traditionnelles. En construisant des pipelines de streaming, nous pouvons surveiller les cœurs virtualisés et les routeurs pour identifier les anomalies ou les dégradations dans le trafic réseau.

Aligné avec mon intérêt pour l'IA réseau et l'apprentissage automatique, nos data scientists utilisent la plateforme pour développer des modèles prédictifs. Nous entraînons des modèles sur les échecs historiques des lignes GPON/DSL, les charges des tours cellulaires mobiles et les modèles d'utilisation des clients pour prédire la congestion du réseau, planifier une maintenance proactive et atténuer le désabonnement des clients à travers les segments de clientèle.

En tant qu'évangéliste de l'évolution technologique, j'utilise la plateforme pour combler le fossé entre nos équipes d'ingénierie réseau de base et les unités commerciales. En connectant les sémantiques commerciales et en établissant des protocoles de partage Delta sécurisés, nous fournissons aux analystes commerciaux et aux décideurs un accès autonome et gouverné aux informations réseau sans risquer la conformité en matière de sécurité.

**Official Response from Jess Darnell:**

> C'est fantastique d'entendre comment Databricks vous aide à ingérer et traiter des flux continus de données de performance, à développer des modèles prédictifs et à combler le fossé entre les équipes d'ingénierie réseau et les unités commerciales. Nous nous engageons à fournir des solutions qui bénéficient à nos utilisateurs dans divers aspects de leur travail.

  ### 5. Rendre les systèmes de données moins désordonnés avec une approche unifiée de Lakehouse

**Rating:** 5.0/5.0 stars

**Reviewed by:** Hunar M. | Data Analyst, Geospatial Intelligence - Data &amp; Analytics, Entreprise (> 1000 employés)

**Reviewed Date:** May 21, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

L'écosystème. Ce que j'aime le plus chez Databricks, c'est la façon dont il élimine une grande partie du désordre habituel que l'on rencontre dans le travail de données. Au lieu de jongler avec des outils séparés pour l'ingénierie, l'analytique et le ML—et ensuite passer du temps supplémentaire à les faire communiquer entre eux—il rassemble tout en un seul endroit. Cela seul réduit beaucoup de friction et fait gagner du temps.

J'aime aussi l'idée du Lakehouse parce qu'elle semble vraiment pratique : vous n'avez pas à choisir entre un lac de données et un entrepôt. Vous pouvez travailler avec une configuration unifiée et obtenir des performances quand vous en avez besoin.

Au quotidien, c'est aussi agréable que différentes équipes puissent collaborer dans le même environnement sans copier constamment des données ou reconstruire des pipelines. Dans l'ensemble, cela simplifie et accélère les choses, surtout lorsque vous itérez.

**Que n’aimez-vous pas à propos de Databricks?**

Ce que je n'aime pas chez Databricks, c'est que cela peut sembler un peu lourd lorsque vous essayez simplement de faire quelque chose de simple. Il y a beaucoup de choses qui se passent en arrière-plan, et bien que ce soit excellent pour l'évolutivité, cela s'accompagne également d'une courbe d'apprentissage. Des éléments comme les clusters, les configurations et la configuration des tâches prennent un certain temps pour s'y habituer.

Le coût est une autre préoccupation. L'utilisation peut augmenter rapidement si vous ne la surveillez pas activement, surtout lorsque les équipes peuvent lancer des calculs librement. Et parfois, l'expérience globale semble un peu fragmentée entre les notebooks, les tâches et les dépôts, plutôt que d'être un flux fluide et unifié.

Donc, oui, c'est puissant, mais cela demande certainement de la discipline pour garder les choses propres, efficaces et sous contrôle.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Ce que Databricks résout vraiment pour moi, c'est la friction habituelle qui apparaît lorsque les systèmes de données sont répartis sur trop d'outils.

Au lieu de faire fonctionner un système pour l'ingestion, un autre pour le stockage, un autre encore pour la transformation, puis des configurations séparées pour l'analytique et le ML, cela regroupe la plupart de ces éléments en un seul endroit. Cela signifie que je n'ai pas à déplacer constamment les données ou à m'inquiéter de leur désynchronisation.

D'un point de vue de l'architecture de solution, c'est un grand avantage car cela simplifie la conception globale. Plutôt que de rassembler un tas de systèmes, vous pouvez construire autour d'une configuration Lakehouse unique qui prend en charge plusieurs cas d'utilisation. C'est plus facile à mettre à l'échelle, plus facile à gouverner, et globalement plus facile à comprendre.

Au quotidien, cela signifie également que je passe moins de temps sur l'infrastructure et la plomberie et plus de temps à réfléchir à la conception de bons modèles de données et de pipelines. Et parce que tout le monde travaille à partir des mêmes données, il y a beaucoup moins de confusion et de retouches entre les équipes.

Dans l'ensemble, cela élimine beaucoup de bruit et me permet de me concentrer sur la construction de solutions de données solides et évolutives.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez notre écosystème et notre approche Lakehouse bénéfiques pour simplifier et unifier votre travail de données. Nous comprenons vos préoccupations concernant la courbe d'apprentissage et le coût, et nous travaillons continuellement à améliorer l'expérience utilisateur et à proposer des solutions rentables. Merci de nous avoir fait part de vos commentaires détaillés.

  ### 6. Databricks centralise les données, l'analytique et l'IA

**Rating:** 5.0/5.0 stars

**Reviewed by:** Leonardo Q. | RPA Developer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 16, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus dans Databricks, c'est la façon dont il centralise l'ingénierie des données, l'analytique et l'IA sur une seule plateforme, ce qui facilite grandement le flux de travail au quotidien. L'intégration entre les notebooks, les pipelines et le traitement distribué rend le développement plus rapide et organisé, surtout dans les projets avec un grand volume de données et d'automatisations.

Un autre point que je considère très fort est l'expérience avec Apache Spark, intégrée de manière simplifiée. Même dans des scénarios plus complexes, la performance est généralement excellente, permettant de traiter des données à grande échelle avec une bonne stabilité et évolutivité. Cela aide beaucoup dans les intégrations, les ETL et les analyses qui, dans d'autres solutions, nécessiteraient beaucoup plus d'efforts.

**Que n’aimez-vous pas à propos de Databricks?**

Bien que j'aime beaucoup la plateforme, certains aspects de Databricks peuvent encore être difficiles. Le principal d'entre eux est le coût, surtout dans des environnements avec un traitement intensif ou lorsque les clusters ne sont pas bien optimisés. Sans un contrôle d'utilisation plus rigoureux, les dépenses peuvent augmenter rapidement.

Un autre aspect est la courbe d'apprentissage, qui peut être élevée pour les équipes qui commencent dans l'écosystème des données distribuées. Les concepts liés à Spark, aux clusters, à l'optimisation et à la gestion des ressources nécessitent un temps d'adaptation, surtout pour ceux qui viennent d'outils plus traditionnels.

En UI/UX, bien que l'interface soit globalement bonne, certains processus administratifs et configurations plus avancées peuvent sembler confus au début. Dans certains scénarios, identifier des problèmes de performance ou de permissions peut également nécessiter une connaissance plus technique.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks a principalement aidé à résoudre des problèmes liés à la centralisation, au traitement et à l'analyse de grands volumes de données. Auparavant, de nombreux processus étaient répartis entre différents outils, ce qui compliquait les intégrations, la maintenance et la gouvernance. Avec Databricks, une grande partie du flux d'ingénierie des données, d'analytique et d'IA peut être concentrée sur une seule plateforme, apportant plus de cohérence au travail quotidien.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez la centralisation des données, de l'analytique et de l'IA par Databricks bénéfique pour votre flux de travail. Nous comprenons l'importance de l'intégration et de la simplification, et nous nous engageons à fournir une plateforme qui répond à vos besoins.

  ### 7. Databricks simplifie le traitement des Big Data et la collaboration en équipe

**Rating:** 4.5/5.0 stars

**Reviewed by:** Praveen M. | Associate Data Engineer, Technologie de l'information et services, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 07, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la façon dont il simplifie le traitement des données à grande échelle et la collaboration sur une seule plateforme. L'intégration avec Spark et les services cloud rend la gestion des big data beaucoup plus efficace. J'aime aussi l'environnement de notebook, qui facilite le travail en équipe sur les tâches d'analyse et d'apprentissage automatique.

**Que n’aimez-vous pas à propos de Databricks?**

Une chose que je n'aime pas à propos de Databricks est que la plateforme peut sembler complexe pour les nouveaux utilisateurs, surtout lorsqu'il s'agit de gérer les clusters et les configurations. Les prix peuvent également devenir coûteux avec des charges de travail plus importantes si les ressources ne sont pas optimisées avec soin. Bien que les intégrations et les fonctionnalités d'IA soient puissantes, le processus d'intégration et la documentation de support pourraient être plus adaptés aux débutants.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks aide à résoudre le défi du traitement et de l'analyse de grandes quantités de données de manière efficace sur une seule plateforme. Il combine l'ingénierie des données, l'analytique et les flux de travail d'IA, ce qui réduit le besoin de multiples outils séparés. Cela améliore la collaboration, accélère le traitement des données et aide à générer des insights beaucoup plus rapidement.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez Databricks utile pour simplifier le traitement de données à grande échelle et la collaboration. Notre intégration avec Spark et les services cloud est conçue pour rendre la gestion des big data plus efficace.

  ### 8. Parfait pour la collaboration inter-équipes et les applications de données intensives

**Rating:** 5.0/5.0 stars

**Reviewed by:** Artemij V. | Data Science Lead, Petite entreprise (50 employés ou moins)

**Reviewed Date:** May 04, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

L'UX est l'un des points forts. L'expérience du notebook est propre et intuitive, la collaboration est simple, et passer de l'exploration à l'expérimentation, puis aux flux de travail de production, semble fluide. Il offre suffisamment de flexibilité pour les utilisateurs avancés tout en restant suffisamment accessible pour que l'intégration de nouveaux membres de l'équipe soit rapide. Les gens peuvent généralement devenir productifs rapidement sans passer des semaines à apprendre les particularités spécifiques à la plateforme.

Les intégrations sont également excellentes. Il fonctionne parfaitement avec l'écosystème cloud plus large et se connecte bien avec les sources de données, les outils d'orchestration, l'infrastructure de service de modèles et les systèmes externes. Cette interopérabilité facilite grandement le passage du prototype au pipeline déployé sans avoir à reconstruire constamment des connecteurs ou à gérer du code de liaison.

Les performances ont été constamment solides, surtout lorsqu'on travaille avec des charges de travail distribuées et de l'ingénierie de fonctionnalités à grande échelle. L'optimisation de Spark, la gestion des clusters et l'infrastructure gérée réduisent considérablement les frais généraux opérationnels, ce qui me permet de me concentrer davantage sur le développement et l'analyse des modèles plutôt que sur le réglage de l'environnement. Pour l'expérimentation itérative, les temps de démarrage et la réactivité globale sont nettement meilleurs que de nombreuses plateformes gérées alternatives.

**Que n’aimez-vous pas à propos de Databricks?**

Un domaine où Databricks pourrait s'améliorer est la tarification. La plateforme offre de solides capacités, mais les coûts peuvent augmenter rapidement pour les charges de travail à haute fréquence ou en temps réel. Pour les cas d'utilisation impliquant des pipelines de ticks à faible latence fonctionnant en continu, des données de marché en streaming ou un réentraînement itératif de modèles, la tarification peut devenir assez élevée par rapport à l'infrastructure consommée. Il semble parfois qu'il y ait une prime significative pour la commodité et l'orchestration gérée, ce qui peut faire de l'optimisation des coûts une considération constante.

L'intégration de l'IA est un autre domaine qui semble encore quelque peu inégal. Bien qu'il y ait une volonté claire de positionner la plateforme comme un environnement IA/ML de bout en bout, certaines des nouvelles fonctionnalités axées sur l'IA ressemblent davantage à des ajouts à l'écosystème qu'à des améliorations de flux de travail profondément intégrées. En pratique, il existe encore des cas où des outils personnalisés ou des cadres externes offrent plus de flexibilité et de transparence, en particulier pour le développement de modèles spécialisés, l'expérimentation et les cas d'utilisation d'inférence en temps réel.

Il peut également y avoir une certaine complexité autour de l'optimisation des clusters et de la gestion efficace des coûts à grande échelle. Bien que les abstractions soient utiles, obtenir le meilleur rapport performance-coût nécessite parfois une connaissance plus approfondie de la plateforme que ce que le positionnement "entièrement géré" pourrait laisser entendre.

Dans l'ensemble, la plateforme est très solide techniquement, mais la tarification pour les charges de travail intensives en données toujours actives et la maturité de certaines capacités natives de l'IA sont les deux plus grands domaines où j'aimerais voir des améliorations.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout l'un des plus grands défis du travail moderne sur les données : réunir l'accès aux données, le traitement à grande échelle et le développement collaboratif dans un seul environnement.

Pour mon travail, le plus grand avantage est la collaboration en temps réel. Cela permet à plusieurs personnes de travailler sur les mêmes ensembles de données, notebooks et pipelines sans les frictions habituelles des outils fragmentés ou des incohérences d'environnement. Cela accélère considérablement l'expérimentation, l'itération et le partage des connaissances à travers les projets, surtout lorsqu'il s'agit de développer rapidement des modèles ou d'analyser des données en évolution rapide.

Il résout également le défi de l'accès et du traitement des données à grande échelle. Travailler avec des ensembles de données transactionnels et de séries temporelles à haut volume nécessite une infrastructure capable de traiter de grandes quantités de données efficacement sans surcharge opérationnelle constante. Databricks abstrait une grande partie de cette complexité, rendant possible de se concentrer sur l'analyse, l'ingénierie des caractéristiques et le développement de modèles plutôt que de passer du temps à gérer l'infrastructure.

Le bénéfice pratique est des cycles d'itération plus rapides. Je peux passer de l'exploration de données brutes à l'expérimentation et au déploiement de modèles beaucoup plus rapidement, ce qui est particulièrement précieux lorsque l'on travaille sur des analyses en temps réel, des pipelines de prévision et des systèmes ML orientés production où la rapidité d'itération impacte directement les résultats.

Dans l'ensemble, cela réduit les frictions d'ingénierie et rend le travail collaboratif sur les données à grande échelle beaucoup plus efficace, ce qui se traduit par un développement plus rapide, une meilleure expérimentation et un déploiement plus fiable des produits de données.

**Official Response from Jess Darnell:**

> Nous apprécions votre examen approfondi de Databricks et sommes ravis d'apprendre que la plateforme a été essentielle pour permettre la collaboration inter-équipes et les applications de données intensives dans votre travail. Vos commentaires sur les prix et l'intégration de l'IA sont précieux, et nous nous efforçons continuellement d'améliorer ces aspects pour offrir une expérience plus fluide à nos utilisateurs.

  ### 9. Genie Code et l'assistant en ligne ont considérablement augmenté ma productivité en débogage.

**Rating:** 4.5/5.0 stars

**Reviewed by:** Shyam s. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Le code Genie et l'assistant intégré ont été les outils les plus utiles pour moi sur mon projet. Ils m'ont aidé à déboguer une base de code de 2 000 lignes et ont clairement expliqué pourquoi je n'obtenais pas de données précises. Ils ont également fourni une requête à exécuter dans mon système source (SQLMI). En exécutant le script de divergence en parallèle sur la source et la cible, j'ai pu déboguer l'ensemble du code beaucoup plus rapidement et améliorer ma productivité. Dans l'ensemble, cela a réduit mon temps de travail d'environ 8 heures à environ 1 heure.

**Que n’aimez-vous pas à propos de Databricks?**

Dans Delta Sharing, il n'y a pas de permission SELECT au niveau du catalogue, et je pense parfois que cela serait utile. De plus, lorsque j'utilise le code Genie à l'intérieur d'une VM, cela peut rendre le site web non réactif par moments. Ce sont des domaines qui pourraient être améliorés.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Dans l'un de nos projets de migration de traitement des réclamations, le client avait besoin d'une disponibilité des données quasi en temps réel pour les applications en aval. Auparavant, l'architecture utilisait Amazon Redshift comme entrepôt de données, avec Jasper et Sisense consommant les données pour les rapports et l'analyse. Cependant, cette configuration ne supportait pas efficacement le streaming en temps réel ou quasi en temps réel, ce qui entraînait des retards dans la disponibilité des données pour les systèmes en aval.

Après avoir migré la plateforme vers Databricks, nous avons pu améliorer considérablement l'architecture du pipeline de données. Nous avons mis en œuvre le streaming ainsi que des pipelines ETL optimisés, réduisant le cycle de rafraîchissement des données à environ 30 minutes. Nous avons également créé une vue dédiée qui conserve les données de l'exécution précédente, de sorte que les systèmes en aval disposent toujours d'un ensemble de données cohérent pendant que la prochaine exécution du pipeline est encore en cours.

Auparavant, nous avions du mal avec des cycles de rafraîchissement retardés et une capacité limitée à répondre aux besoins de données quasi en temps réel dans notre architecture basée sur Redshift. Après être passés à Databricks, nous avons permis un traitement ETL plus rapide et amélioré la disponibilité des données quasi en temps réel.

En conséquence, nous avons réduit le temps de rafraîchissement ETL à environ 30 minutes et permis un accès quasi en temps réel pour les outils en aval comme Jasper et Sisense. La fiabilité s'est également améliorée car la vue stable continue de servir les données de l'exécution précédente pendant les mises à jour du pipeline. Enfin, l'architecture globale est devenue plus simple en consolidant les capacités de traitement et d'analyse au sein de Databricks.

Dans l'ensemble, Databricks nous a aidés à construire une plateforme de traitement de données quasi en temps réel plus évolutive et efficace, améliorant considérablement la rapidité et la fiabilité des analyses pour le flux de travail de traitement des réclamations.

**Official Response from Janelle Glover:**

> Merci de partager comment l'architecture de Databricks vous bénéficie. Nous avons conçu notre plateforme pour répondre aux défis de la gestion des données structurées et non structurées, et c'est formidable d'entendre qu'elle a un impact positif sur vos flux de travail d'analyse et d'apprentissage automatique.

  ### 10. La plateforme de données unifiée qui tient réellement ses promesses

**Rating:** 5.0/5.0 stars

**Reviewed by:** Janakiraman K. | Data Engineer, Entreprise (> 1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Databricks a transformé la façon dont notre équipe gère les flux de travail de données de bout en bout. Quelques points forts :

UI/UX : L'interface du notebook est intuitive, et l'éditeur SQL semble soigné, ce qui permet de passer de Python à SQL et Scala dans le même espace de travail sans changement de contexte constant.

Intégrations : Les connecteurs natifs à Azure, Unity Catalog et Delta Sharing signifient que nous passons moins de temps sur la plomberie. Lakehouse Federation nous permet d'interroger des sources externes sans déplacer les données, ce qui a été une victoire inattendue.

Performance : L'auto-optimisation de Delta Lake et le clustering liquide ont réduit de manière notable nos temps de requête. Le moteur Photon sur les agrégations lourdes est un changement radical pour les tableaux de bord en temps quasi réel.

Tarification/ROI : Le modèle DBU demande un certain temps d'adaptation, mais la consolidation de notre entrepôt de données, ETL et outils ML en une seule plateforme a réduit de manière significative nos dépenses d'infrastructure globales.

Support/Intégration : Databricks Academy et la documentation intégrée ont accéléré l'intégration des nouveaux ingénieurs. Le forum communautaire est étonnamment actif pour des questions de niche.

IA/Intelligence : Genie (AI/BI) permet aux utilisateurs métier de poser des questions en anglais simple et d'obtenir des résultats précis, réduisant ainsi les demandes ad hoc à notre équipe de données de manière notable. Databricks Assistant à l'intérieur des notebooks accélère également la génération de code et le débogage.

**Que n’aimez-vous pas à propos de Databricks?**

Bien que Databricks soit puissant, il existe de véritables points de friction qui méritent d'être mentionnés :

UI/UX : L'interface peut sembler accablante pour les nouveaux utilisateurs, la navigation entre les Espaces de travail, les Catalogues et les Entrepôts SQL n'est pas toujours intuitive. L'organisation des dossiers et des carnets pourrait être plus structurée dès le départ.

Intégrations : Certains connecteurs tiers nécessitent encore une configuration manuelle et du code personnalisé. La Fédération Lakehouse est prometteuse mais parfois incohérente avec certains systèmes sources, nécessitant un dépannage supplémentaire.

Performance : Les temps de démarrage des clusters restent un point douloureux, les démarrages à froid sur les clusters interactifs peuvent perturber les flux de travail rapides. Le calcul sans serveur aide mais n'est pas encore universellement disponible pour toutes les fonctionnalités.

Tarification/ROI : Le modèle de tarification basé sur les DBU manque de transparence pour les nouvelles équipes. Il est facile d'accumuler des coûts inattendus sans politiques de cluster et surveillance attentives. Un estimateur de coûts plus simple aiderait considérablement.

Support/Intégration : Les temps de réponse du support entreprise peuvent être lents pour les tickets non critiques. Pour les problèmes architecturaux complexes, il faut souvent plusieurs escalades pour atteindre le bon expert.

IA/Intelligence : Genie fonctionne bien pour les requêtes standard mais a du mal avec la logique complexe multi-tables ou la terminologie spécifique au domaine sans un ajustement significatif. L'Assistant Databricks dans les carnets génère parfois des suggestions d'API obsolètes ou incorrectes.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Voici une réponse naturelle et axée sur l'histoire suivant le format "avant/après/résultat" :

Avant Databricks, notre paysage de données était fragmenté et l'utilisation d'outils séparés pour l'ETL, l'entreposage et le ML signifiait des pipelines dupliqués, des définitions de données incohérentes et un surcroît de travail d'ingénierie juste pour maintenir l'infrastructure.

Unification des données : Nous avions du mal avec des données cloisonnées à travers plusieurs systèmes sources. Maintenant, avec Unity Catalog et l'architecture Medallion (Bronze/Argent/Or), nous avons une couche gouvernée unique en laquelle toutes les équipes ont confiance, réduisant l'effort de réconciliation des données de près de 40%.

Fiabilité des pipelines : Construire et maintenir des pipelines basés sur les métadonnées nécessitait auparavant des cadres personnalisés. Lakeflow et Delta Live Tables de Databricks nous ont offert des capacités de chargement incrémentiel et complet prêtes à l'emploi, réduisant considérablement le temps de développement des pipelines.

Analytique en libre-service : Les équipes commerciales dépendaient constamment des ingénieurs pour les requêtes ad hoc. Avec Genie (IA/BI), les parties prenantes peuvent désormais poser des questions en anglais simple sur des tables d'or organisées, réduisant de manière notable les demandes de données ad hoc à notre équipe semaine après semaine.

Contrôle des coûts du cloud : Nous faisions auparavant fonctionner des clusters toujours actifs sans visibilité sur les dépenses. Le calcul sans serveur et les politiques de cluster nous permettent maintenant de dimensionner correctement les charges de travail, entraînant une réduction mesurable des coûts d'infrastructure.

Intégration plus rapide : Les nouveaux ingénieurs mettaient auparavant des semaines à devenir productifs. Avec Databricks Assistant, les modèles de notebooks et la documentation centralisée de Unity Catalog, le temps de montée en compétence a considérablement diminué.

Dans l'ensemble : Databricks a essentiellement remplacé 3 à 4 outils séparés par une plateforme cohérente. Le retour sur investissement ne réside pas seulement dans les économies de coûts, mais aussi dans la rapidité et la confiance avec lesquelles nous livrons désormais des produits de données à l'entreprise.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que vous trouvez Databricks précieux pour l'ingénierie des données, l'analytique et l'apprentissage automatique. Merci de partager vos commentaires !

  ### 11. Environnement évolutif, tout-en-un avec une certaine courbe d'apprentissage

**Rating:** 5.0/5.0 stars

**Reviewed by:** Antonio V. | Data &amp; AI Consultant, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 28, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

J'aime Databricks pour sa scalabilité et son environnement tout-en-un pour l'ingénierie des données, l'analytique et l'apprentissage automatique. Il me permet de traiter de grands ensembles de données efficacement tout en gardant les flux de travail organisés sur une seule plateforme. La scalabilité est très précieuse car elle me permet de gérer des volumes de données croissants et des charges de travail complexes sans problèmes de performance. À mesure que les projets s'étendent, la plateforme peut évoluer efficacement en ressources.

**Que n’aimez-vous pas à propos de Databricks?**

Certaines fonctionnalités peuvent avoir une courbe d'apprentissage, surtout pour les nouveaux utilisateurs travaillant avec des configurations avancées ou la gestion de clusters. L'interface pourrait également être plus intuitive dans certains domaines. L'installation a été relativement fluide pour les fonctionnalités de base, mais certains paramètres avancés comme l'optimisation des clusters, les autorisations et les intégrations ont nécessité plus de temps et de connaissances techniques.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout les principaux défis de gestion et d'analyse des données en gérant efficacement de grands ensembles de données, en simplifiant les processus ETL et en centralisant les flux de travail. Sa scalabilité me permet de gérer des volumes de données croissants sans problèmes de performance, garantissant que les ressources s'adaptent efficacement à mesure que les projets se développent.

**Official Response from Jess Darnell:**

> Nous sommes heureux d'apprendre que vous trouvez Databricks évolutif et que vous appréciez son environnement tout-en-un pour l'ingénierie des données, l'analytique et l'apprentissage automatique. Nous comprenons que certaines fonctionnalités peuvent nécessiter un temps d'apprentissage, et nous travaillons continuellement à améliorer la convivialité et l'intuitivité de la plateforme.

  ### 12. Performance avec Spark et des notebooks collaboratifs qui rendent le flux de données plus efficace

**Rating:** 5.0/5.0 stars

**Reviewed by:** Homero F. | Professor particular, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 19, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus, c'est la performance dans le traitement de grands volumes de données avec Spark, les notebooks collaboratifs qui facilitent le travail en équipe et les intégrations avec AWS et les outils de BI, qui rendent tout le flux de données plus efficace.

**Que n’aimez-vous pas à propos de Databricks?**

Le coût peut être élevé selon l'utilisation et certaines parties de l'interface, comme la configuration des clusters et des tâches, ne sont pas très intuitives au début. De plus, la courbe d'apprentissage peut être un peu élevée pour les nouveaux utilisateurs.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout les problèmes de traitement de grands volumes de données, d'intégration de différentes sources et de développement de modèles d'IA dans un seul environnement. Cela améliore notre flux de travail, réduit le temps de traitement et centralise tout sur la plateforme. Les intégrations avec AWS et d'autres outils facilitent la mise en œuvre, et le support ainsi que la documentation aident à l'adaptation. De plus, les ressources d'IA permettent de créer, former et tester des modèles de manière plus rapide et efficace.

**Official Response from Jess Darnell:**

> Merci pour vos commentaires positifs !

  ### 13. Analytique unifiée puissante avec gouvernance transparente et mise à l'échelle sans effort

**Rating:** 4.5/5.0 stars

**Reviewed by:** Akhil S. | Senior Data Engineer, Entreprise (> 1000 employés)

**Reviewed Date:** April 16, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est son écosystème analytique puissant et unifié. Des fonctionnalités comme Unity Catalog et Metastore rendent la gouvernance des données et le contrôle d'accès transparents, tandis que l'architecture Lakehouse combine le meilleur des lacs de données et des entrepôts. Le support de PySpark, dbutils, et les espaces de travail collaboratifs rendent le développement efficace, et le calcul sans serveur simplifie la mise à l'échelle sans surcharge d'infrastructure.

**Que n’aimez-vous pas à propos de Databricks?**

Ce que je n'aime pas chez Databricks, c'est le temps de démarrage lent des clusters polyvalents, ce qui peut interrompre le flux de travail et réduire la productivité. De plus, l'intégration avec Git peut parfois sembler un peu lente, surtout lors des commits ou des synchronisations, rendant le contrôle de version moins fluide que prévu.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout le défi de la gestion des flux de travail de données de bout en bout en fournissant une plateforme unifiée pour l'ingénierie des données, la science des données et l'analytique. Il permet un traitement, une transformation et un développement de modèles de données sans faille dans un environnement unique.

Cela me bénéficie en simplifiant mon flux de travail en tant qu'ingénieur de données et scientifique des données, réduisant le besoin de passer d'un outil à l'autre. De plus, son intégration avec Azure Data Factory permet une orchestration et un déclenchement de tâches fluides pour des environnements plus élevés, rendant les déploiements plus efficaces et fiables.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que Databricks simplifie vos flux de travail de données et offre une intégration transparente avec Azure Data Factory. Nous prenons note de vos préoccupations concernant les temps de démarrage lents et l'intégration Git, et nous nous engageons à optimiser ces aspects pour garantir une expérience plus fluide à nos utilisateurs. Vos commentaires nous aident à prioriser les améliorations qui correspondent aux besoins de nos utilisateurs.

  ### 14. Plateforme collaborative et fluide qui s'adapte pour l'ingénierie des données et l'apprentissage automatique

**Rating:** 4.0/5.0 stars

**Reviewed by:** Krish G. | student, Petite entreprise (50 employés ou moins)

**Reviewed Date:** April 15, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

La capacité de Databricks à intégrer tout de manière transparente est ce que je trouve le plus attrayant. Lorsqu'on travaille sur des projets réels, cela fait vraiment une grande différence de ne pas avoir à passer d'un outil à l'autre pour l'ingénierie des données, l'analyse et l'apprentissage automatique.

L'élément collaboratif est très remarquable. Les équipes peuvent facilement collaborer sans que les choses deviennent désordonnées grâce à la fluidité et au dynamisme des notebooks. Pour un travail de données important, cela ressemble presque exactement à Google Docs.

J'aime aussi beaucoup la façon dont il gère efficacement de grandes quantités de données sans que cela ne semble difficile. Même lorsqu'on travaille avec de grands ensembles de données, la plateforme est conviviale et peut être mise à l'échelle si nécessaire.

De plus, cela a parfaitement du sens d'un point de vue IA/ML. Vous êtes capable de construire,

**Que n’aimez-vous pas à propos de Databricks?**

Databricks peut initialement sembler un peu accablant, ce qui est quelque chose que je n'aime pas. Clusters, notebooks, jobs, workflows—il y a beaucoup de choses en cours, et si vous êtes nouveau, cela prend du temps pour vraiment comprendre comment tout fonctionne ensemble.

Le contrôle des coûts est un autre inconvénient. C'est sans aucun doute puissant, mais les dépenses peuvent rapidement augmenter si vous ne faites pas attention à l'utilisation des clusters ou aux paramètres d'auto-scaling. Pour garder tout sous contrôle, vous devez faire preuve d'un peu de maîtrise de soi et surveiller les choses.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Le problème de fragmentation dans le flux de travail des données et de l'IA est principalement résolu par Databricks. Dans le passé, le stockage des données, le traitement, l'analyse et l'apprentissage automatique étaient généralement effectués à l'aide de différents outils, et les faire coopérer était souvent difficile et chronophage. Databricks élimine beaucoup de ces frictions en combinant tout cela en une seule plateforme.
Cela rend le processus de développement beaucoup plus fluide pour moi. Je n'ai pas à m'inquiéter des problèmes de compatibilité ou à perdre du temps à passer d'un environnement à l'autre. Je peux effectuer des transformations, nettoyer des données et créer des modèles tout au même endroit, ce qui réduit le temps de configuration et maintient l'organisation.
Il résout également la difficulté de gérer d'énormes quantités de données.
Je peux compter sur ses capacités de calcul distribué pour gérer des charges de travail exigeantes plutôt que de m'inquiéter de l'infrastructure ou de l'optimisation des performances dès le départ. Cela me permet de me concentrer moins sur la gestion des ressources et plus sur la recherche d'une solution au véritable problème.
La collaboration est un autre problème majeur qu'il résout. Partager du code, des résultats et des expériences peut devenir désorganisé dans des environnements d'équipe. Parce que tout est consolidé avec Databricks, il est plus simple de travailler ensemble, de suivre les changements et de maintenir l'alignement.
Tout bien considéré, cela m'aide en réduisant la complexité, en économisant du temps et en me permettant de me concentrer davantage sur le développement de solutions—qu'il s'agisse d'analyses, de modèles d'apprentissage automatique ou de pipelines de données—plutôt que de gérer la surcharge de maintenir de nombreux outils et plateformes.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez l'intégration transparente et les fonctionnalités collaboratives de Databricks attrayantes. Nous comprenons que la plateforme puisse sembler écrasante au début, mais nous offrons des ressources complètes et un support pour aider les utilisateurs à se familiariser rapidement. En ce qui concerne le contrôle des coûts, nous recommandons de tirer parti de notre documentation et de nos meilleures pratiques pour optimiser l'utilisation des clusters et les paramètres d'auto-scalabilité. Vos commentaires sont appréciés et nous nous engageons à améliorer continuellement l'expérience utilisateur !

  ### 15. Databricks en tant qu'Ingénieur de Données Pratique : Résoudre les Défis Réels d'ETL, de Gouvernance et de Lakehouse

**Rating:** 5.0/5.0 stars

**Reviewed by:** KAVIN P. | Data Engineer, Technologie de l'information et services, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 08, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Je crois que l'aspect le plus attrayant de Databricks réside dans sa nature tout-en-un, ce qui facilite la gestion des données. Auparavant, lorsque j'utilisais plusieurs outils pour des activités liées aux données, l'expérience n'était pas excellente, mais ici tout semble être interconnecté et simple.

La capacité d'utiliser des notebooks, surtout lorsque l'on travaille avec PySpark, est un autre avantage de Databricks que j'apprécie au cœur. L'outil permet d'exécuter rapidement des changements et des modifications sans préparation excessive. Cela a également un impact positif sur le processus de collaboration au sein de mon équipe qui peut travailler simultanément sur leurs projets et suivre l'avancement global. Cependant, le contrôle de version peut parfois sembler un peu flou à mon avis.

En termes de performance, Databricks me semble efficace pour gérer de grandes quantités de données et fonctionner sans à-coups ni retards. Le redimensionnement des clusters se fait automatiquement, ce qui permet à mon équipe et moi de gagner du temps au niveau de l'infrastructure. Par conséquent, c'est facile car aucune planification et ajustement supplémentaires ne sont nécessaires.

Il y a de petits problèmes avec l'interface utilisateur, qui fonctionne parfois lentement. Mais dans l'ensemble, grâce à d'autres aspects super comme les méthodes faciles pour implémenter et intégrer des choses, cela m'encourage à utiliser Databricks fréquemment.

**Que n’aimez-vous pas à propos de Databricks?**

Un aspect de Databricks que je n'aime pas est son interface utilisateur. Plus vous passez de temps à utiliser l'outil, plus il devient agaçant de naviguer entre les notebooks et les clusters.

L'autre problème est que les coûts peuvent s'accumuler rapidement si nous ne faisons pas attention. Des clusters inutiles peuvent fonctionner plus longtemps que nécessaire et sans que moi ou mon équipe en soyons informés, augmentant ainsi les coûts dans nos projets.

Il y a aussi la complexité du débogage des erreurs, qui est parfois difficile car cela implique de faire un effort supplémentaire pour essayer de découvrir où les choses ont pu mal tourner, surtout lorsqu'on traite des pipelines complexes.

Parfois, il y a des divergences concernant le service client qui nous emmènent là où nous n'avons pas besoin d'être.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Le problème le plus important que Databricks résout est celui de travailler avec de grands volumes de données tout en maintenant la cohérence. Auparavant, il y avait des processus séparés pour l'ingénierie des données, l'analytique et les opérations d'apprentissage automatique, nécessitant des outils distincts et rendant difficile la gestion pour moi, mais maintenant tout est au même endroit. Un autre problème critique résolu par Databricks est le traitement de grands volumes de données. L'utilisation de Spark et du calcul distribué permet d'effectuer des tâches qui étaient extrêmement lentes sur les systèmes hérités avec lesquels je travaillais. Cela a aidé à accélérer mon pipeline, bien que parfois des retards se produisent. La collaboration est également un autre problème que Databricks aborde. Plusieurs utilisateurs peuvent collaborer sur le même notebook ou ensembles de données. La collaboration était auparavant confuse, et maintenant elle est facile, bonne, facilement compréhensible et surtout facile pour partager des notebooks et des ressources. La scalabilité est un autre problème résolu par Databricks ; il n'est pas nécessaire de prêter attention à la gestion de l'infrastructure. Le dimensionnement des clusters dépend des besoins des utilisateurs, ce qui permet de gagner du temps. Auparavant, il était nécessaire de prêter plus d'attention à la configuration de l'infrastructure.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez la nature tout-en-un et l'interconnexion de Databricks bénéfiques pour la gestion des données afin d'aider votre équipe à gagner du temps. Nous apprécions vos commentaires sur les avantages de l'utilisation des notebooks et l'efficacité dans le traitement des grandes données.

  ### 16. Espace de travail Databricks unifié qui simplifie la collaboration et les flux de travail de données complexes

**Rating:** 4.0/5.0 stars

**Reviewed by:** Neeraj Kumar N. | AI Data Specialist | Transcription &amp; Annotation Expert | AI Model Training at Sigma AI, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 12, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la façon dont il réunit l'ingénierie des données, l'analytique et l'apprentissage automatique dans un espace de travail unifié. Je trouve la collaboration beaucoup plus facile avec les notebooks partagés, et l'intégration transparente avec les outils de big data me fait gagner du temps. Il simplifie les flux de travail complexes tout en offrant des capacités puissantes lorsque j'en ai besoin.

**Que n’aimez-vous pas à propos de Databricks?**

Une chose que je n'aime pas à propos de Databricks, c'est que cela peut sembler coûteux, surtout pour les petits projets ou les petites équipes. Je trouve également que la configuration des clusters et la gestion des coûts sont parfois un peu complexes. L'interface, bien que puissante, peut être intimidante pour les débutants, et le débogage des tâches distribuées n'est pas toujours aussi simple que je le souhaiterais.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout le défi de la gestion du traitement de données à grande échelle, de l'analytique et de l'apprentissage automatique en un seul endroit. Pour moi, cela élimine les tracas de la gestion d'outils et d'infrastructures séparés. J'en bénéficie en travaillant plus efficacement, en collaborant facilement avec mon équipe et en transformant des données complexes en informations utiles plus rapidement, avec moins de surcharge opérationnelle globale.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez les fonctionnalités de l'espace de travail unifié et de collaboration de Databricks précieuses pour votre travail. Nous comprenons vos préoccupations concernant le coût et la complexité, et nous travaillons continuellement à nous améliorer dans ces domaines.

  ### 17. Plateforme de données fiable avec un support puissant pour les pipelines

**Rating:** 4.5/5.0 stars

**Reviewed by:** Chandhuru B. | Data Engineer, Technologie de l'information et services, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 06, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la façon dont il réunit l'ingénierie des données, l'analytique et l'apprentissage automatique dans un espace de travail propre. Cela permet de gagner du temps, facilite la collaboration et aide les équipes à avancer plus rapidement avec de grandes quantités de données.

**Que n’aimez-vous pas à propos de Databricks?**

Ce que je n'aime pas chez Databricks, c'est que l'Auto Loader peut devenir frustrant lorsque les données sources changent fréquemment, surtout si les noms de colonnes ou les types de données changent sans avertissement.

Par exemple, un champ comme customer_id peut soudainement apparaître sous le nom de cust_id, ou une colonne qui était auparavant une chaîne de caractères peut commencer à arriver sous forme d'entier, ce qui peut entraîner une dérive de schéma et perturber le traitement en aval.

Je trouve également gênant lorsque l'inférence de schéma n'est pas entièrement précise, comme lorsque des données JSON imbriquées ou semi-structurées sont lues incorrectement, car cela nécessite ensuite des corrections manuelles supplémentaires et de la maintenance pour que les pipelines fonctionnent correctement.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout le problème de la construction et de la gestion des pipelines de données à grande échelle sans autant d'efforts manuels. Il aide à l'ingestion fiable, à l'évolution des schémas et à l'orchestration, permettant ainsi aux équipes de traiter les données plus rapidement et de maintenir les pipelines plus stables même lorsque les fichiers sources changent.

Pour moi, cela signifie moins de temps passé à réparer des tâches défaillantes et plus de temps consacré à transformer et à utiliser les données. Cela me profite également en rendant les flux de travail par lots et en continu plus faciles à gérer sur une seule plateforme, ce qui est particulièrement utile lorsque les données continuent de changer.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que vous considérez Databricks comme une plateforme fiable pour l'ingénierie des données, l'analytique et l'apprentissage automatique. Nous comprenons la frustration liée à Auto Loader lorsqu'il s'agit de gérer des données sources fréquemment changeantes. Nous travaillons continuellement à améliorer la précision de l'inférence de schéma et la gestion des données JSON imbriquées ou semi-structurées afin de minimiser les corrections manuelles et la maintenance pour nos utilisateurs.

  ### 18. Aimez Databricks et ses fonctionnalités ainsi que le Unity Catalog pour une gouvernance simplifiée

**Rating:** 4.5/5.0 stars

**Reviewed by:** Prashant N. | Data Engineer, Entreprise (> 1000 employés)

**Reviewed Date:** May 26, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Dans Databricks, j'aime vraiment les nouvelles fonctionnalités telles que Gennie, l'assistant Databricks, les agents et le mécanisme de déclenchement d'événements.

De plus, la fonctionnalité Unity Catalog est incroyable. Avoir un seul endroit pour toutes les sources simplifie beaucoup les choses, et UC aide à gouverner les tables de manière plus organisée.

**Que n’aimez-vous pas à propos de Databricks?**

Rien de spécial à détester, mais il y a une fonctionnalité pour sauter à une commande particulière. La fonctionnalité elle-même est bien, mais elle est placée juste à côté du carnet, ce qui la rend facile à cliquer par accident, et cela perturbe mon flux de travail.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Je l'utilise dans mon projet pour le traitement des données et l'analyse de la qualité des données. Avec Databricks et ses fonctionnalités, je construis des agents dans l'espace Genie. En utilisant UC, je gère toutes les tables gérées et externes en un seul endroit.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous appréciez les nouvelles fonctionnalités comme Gennie, l'assistant Databricks, les agents et le mécanisme de déclenchement d'événements, ainsi que la fonctionnalité Unity Catalog. Nous apprécions vos commentaires !

  ### 19. Databricks : Plateforme unifiée pour le traitement et l'analyse des données

**Rating:** 5.0/5.0 stars

**Reviewed by:** Banu Prakash M. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 02, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

J'aime que Databricks rassemble tout en un seul endroit, rendant inutile l'utilisation de différents outils pour le traitement des données, l'analyse et le travail sur les pipelines. Il gère bien les grandes quantités de données, et nous n'avons pas à nous soucier de gérer les clusters manuellement. De plus, Databricks gère bien la collaboration et l'expérimentation, ce qui facilite l'essai de nouvelles choses.

**Que n’aimez-vous pas à propos de Databricks?**

De mon point de vue, le domaine qui peut être amélioré est la gestion des coûts. Si les clusters ne sont pas surveillés attentivement, les coûts peuvent augmenter plus rapidement que prévu. Une amélioration qui serait utile est une meilleure visibilité des coûts à un niveau plus détaillé. Plus d'alertes intégrées ou de recommandations lorsque les coûts commencent à augmenter de manière inattendue seraient également utiles.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks nous aide à gérer de grands ensembles de données et à construire des pipelines de données. Il simplifie le traitement, la transformation et l'analyse des données en utilisant Spark et SQL, le tout en un seul endroit. Il résout le problème du traitement lent des données réparties sur plusieurs systèmes, gère automatiquement l'infrastructure et facilite la collaboration et l'expérimentation.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que Databricks a été bénéfique pour gérer de grands ensembles de données et simplifier le traitement et l'analyse des données pour vous. Nous apprécions vos commentaires sur la gestion des coûts et nous explorerons des moyens d'améliorer la visibilité des coûts et de fournir de meilleurs outils de suivi.

  ### 20. Un cheval de bataille fiable pour l'ingénierie des données et l'analyse

**Rating:** 5.0/5.0 stars

**Reviewed by:** Supriya  M. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 31, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

L'approche de la plateforme unifiée est ce que j'apprécie le plus. Avoir des notebooks, des pipelines d'ingénierie des données, des workflows de ML et des analyses SQL au même endroit permet de gagner énormément de temps au lieu de jongler avec plusieurs outils. Les notebooks collaboratifs facilitent le partage du travail avec les coéquipiers, et la gestion des clusters est devenue beaucoup plus fluide au fil du temps. L'intégration de Delta Lake est également un énorme avantage pour maintenir nos données fiables et cohérentes.

**Que n’aimez-vous pas à propos de Databricks?**

Le coût peut rapidement devenir incontrôlable si vous ne faites pas attention à la taille des clusters et au temps de fonctionnement. Il n'est pas toujours évident d'optimiser les dépenses, et le modèle de tarification semble complexe. La courbe d'apprentissage pour les nouveaux membres de l'équipe est également plus raide que je ne le souhaiterais, surtout pour les personnes qui ne sont pas déjà familières avec Spark. Parfois, l'interface utilisateur peut sembler lente lorsqu'on travaille avec des notebooks plus volumineux, et le débogage des échecs de tâches pourrait être plus simple.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks m'aide à résoudre des échecs complexes de pipelines ETL et des problèmes persistants de qualité des données dans l'analyse de la chaîne d'approvisionnement en unifiant le traitement par lots et en continu à partir des systèmes SAP avec Delta Live Tables. Il élimine également une grande partie des tracas de gestion de l'infrastructure grâce aux clusters à mise à l'échelle automatique, ce qui me permet de me concentrer sur l'écriture de code pour des charges de travail de plusieurs téraoctets au lieu de m'inquiéter constamment de la taille des clusters.

Pour mes projets de données de fabrication, Databricks accélère les cycles de développement de semaines à jours grâce à des notebooks collaboratifs et des pipelines DLT, permettant des rapports Power BI plus rapides et des décisions des parties prenantes. Unity Catalog centralise la gouvernance à travers les sources Azure et SAP, empêchant la dérive de schéma qui a tourmenté les lacs basés sur Hive auparavant.

**Official Response from Janelle Glover:**

> Merci de souligner les avantages de l'approche de plateforme unifiée et les fonctionnalités de gain de temps de Databricks. Nous comprenons vos préoccupations concernant la gestion des coûts et la courbe d'apprentissage, et nous travaillons continuellement à simplifier notre modèle de tarification et à améliorer l'expérience d'intégration pour les nouveaux membres de l'équipe. C'est formidable d'entendre comment Databricks vous aide à résoudre des échecs complexes de pipelines ETL et à accélérer les cycles de développement pour vos projets de données de fabrication.

  ### 21. Tout-en-un puissant avec de la place pour la clarté des prix

**Rating:** 4.5/5.0 stars

**Reviewed by:** Thoufeeq A. | DevOps Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 02, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

J'aime que Databricks soit une solution tout-en-un où je peux effectuer plusieurs tâches au même endroit. C'est puissant pour gérer des données provenant de multiples sources et les avoir dans un seul UC pour gérer les permissions avec une sécurité au niveau des lignes. J'apprécie également de pouvoir créer des expériences, exécuter plusieurs modèles et sélectionner le meilleur à partir des journaux, ce qui était difficile sur d'autres plateformes. Une fois que j'ai appris la configuration, il a été facile et confortable de travailler avec.

**Que n’aimez-vous pas à propos de Databricks?**

Je trouve difficile d'utiliser la calculatrice pour déterminer les prix des points de terminaison de service CPU car la documentation ne l'explique pas explicitement. Elle mentionne seulement qu'une concurrence égale un DBU sur la page Azure, ce qui n'est pas clair. La calculatrice de prix a une seule option pour les points de terminaison de service, étiquetée comme moyenne avec quatre DBU, mais elle manque d'options séparées pour le GPU ou le CPU et leur concurrence, ce qui rend difficile la compréhension de son fonctionnement. Au début, j'ai également trouvé très difficile d'apprendre Databricks et de gérer les déploiements des espaces de travail, bien que cela soit devenu plus facile avec le temps.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks consolide plusieurs outils en une seule plateforme, la rendant puissante et pratique. Je peux gérer les autorisations avec une sécurité au niveau des lignes et exécuter facilement des expériences pour sélectionner les meilleurs modèles, le tout en un seul endroit.

**Official Response from Janelle Glover:**

> Merci de partager votre expérience positive avec Databricks. Nous comprenons vos préoccupations concernant le calculateur de prix et nous prendrons en compte vos commentaires pour améliorer la clarté de notre documentation.

  ### 22. Databricks Lakehouse Puissance avec Unity Catalog et Fast Photon SQL

**Rating:** 4.0/5.0 stars

**Reviewed by:** Vidhyadar R. | Data Engineer, Entreprise (> 1000 employés)

**Reviewed Date:** April 01, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

J'apprécie vraiment la façon dont la plateforme réunit les lacs de données et les entrepôts en un seul endroit. Cela rend la gestion des données beaucoup plus facile, et les performances SQL sont très rapides grâce au moteur Photon. J'aime aussi les notebooks collaboratifs car ils me permettent de travailler avec SQL et Python de manière transparente dans un seul environnement.

**Que n’aimez-vous pas à propos de Databricks?**

Le coût peut être élevé, et le système de facturation DBU est assez complexe à suivre. J'ai également constaté qu'il y a une courbe d'apprentissage significative en ce qui concerne Spark et la configuration des clusters. Pour des tâches plus petites et rapides, le temps de configuration et la surcharge technique peuvent parfois sembler un peu trop importants.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Cela résout le problème d'avoir des données dispersées partout. J'adore pouvoir passer de SQL à Python au même endroit, et la vitesse de traitement est de premier ordre. Cela a révolutionné la construction de nos modèles financiers rapidement sans le décalage habituel.

**Official Response from Janelle Glover:**

> Nous apprécions vos commentaires sur les avantages de Databricks, tels que la gestion centralisée des données et la possibilité de travailler avec SQL et Python dans un environnement unique. Nous comprenons vos préoccupations concernant le coût et la courbe d'apprentissage, et nous travaillons activement à améliorer la plateforme pour mieux répondre à vos besoins.

  ### 23. Ingénierie des données, science et analytique unifiées dans une plateforme collaborative

**Rating:** 4.5/5.0 stars

**Reviewed by:** Sivabalan A. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 02, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'apprécie le plus chez Databricks, c'est sa capacité à unifier l'ingénierie des données, la science des données et l'analytique sur une seule plateforme. L'environnement collaboratif—en particulier les notebooks et les flux de travail intégrés—facilite grandement la collaboration entre des équipes de différents niveaux de compétence sans changement de contexte constant.

Un autre point fort est l'intégration avec des outils populaires et des services cloud largement utilisés sur le marché aujourd'hui, ce qui facilite le transfert de données entre eux. Les fonctionnalités de surveillance des performances et de planification des tâches aident à maintenir la visibilité sur les pipelines, et le support de Delta Lake pour une gestion fiable des données a également été très utile.

**Que n’aimez-vous pas à propos de Databricks?**

La gestion des coûts est un domaine qui pourrait être amélioré. Bien que Databricks offre des options d'autoscaling et de clusters flexibles, il est facile pour l'utilisation des ressources d'augmenter de manière inattendue, surtout avec de grands ensembles de données et des tâches de longue durée. Garder les coûts prévisibles nécessite souvent une surveillance attentive et une bonne compréhension du modèle de tarification de la plateforme.

De plus, certaines des fonctionnalités plus avancées—telles que les contrôles d'accès granulaires et l'orchestration de tâches plus complexes—peuvent sembler moins intuitives. La documentation est exhaustive, mais elle laisse parfois des lacunes qui finissent par nécessiter des essais et des erreurs.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks aborde plusieurs défis clés dans les flux de travail de données modernes, notamment en matière de scalabilité, de fiabilité des données et d'analytique collaborative. Un problème majeur qu'il résout est la gestion et le traitement efficace des ensembles de données à grande échelle. En tirant parti du cadre de calcul distribué d'Apache Spark, Databricks permet des pipelines ETL parallélisés et des transformations de données à grande échelle qui seraient impraticables sur une infrastructure traditionnelle.

Un autre défi est d'assurer la cohérence et la fiabilité des données à travers les pipelines. Avec Delta Lake, Databricks fournit un stockage conforme aux normes ACID, des tables versionnées et une application de schéma, ce qui réduit les erreurs de données et simplifie la gouvernance des données. Cela est particulièrement bénéfique lorsque plusieurs équipes travaillent sur différentes étapes des pipelines de données en même temps.

Databricks aide également à résoudre le problème des flux de travail fragmentés pour les data scientists et les ingénieurs. Son environnement unifié prend en charge plusieurs langages (Python, SQL, R, Scala) et inclut l'apprentissage automatique intégré avec MLFlow, ce qui facilite la collaboration et le passage de la préparation des données à l'analytique et au ML en un seul endroit.

**Official Response from Janelle Glover:**

> C'est formidable d'entendre comment Databricks aide à relever les défis de l'évolutivité, de la fiabilité des données et de l'analyse collaborative pour votre équipe. Nous apprécions vos retours sur la gestion des coûts et l'utilisabilité des fonctionnalités avancées. Nous travaillons continuellement à améliorer la transparence de nos prix et à enrichir l'expérience utilisateur pour toutes nos fonctionnalités.

  ### 24. Plateforme tout-en-un qui nous aide à itérer rapidement et à déployer avec confiance

**Rating:** 5.0/5.0 stars

**Reviewed by:** Vijayaramuprawin V. | Sr. Cloud and DevOps Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 01, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Nous utilisons Databricks quotidiennement comme notre plateforme de données principale pour construire et exécuter des pipelines à travers une architecture en médaillon, depuis l'extraction de données de SAP et Arkieva jusqu'aux ensembles de données prêts pour le reporting. L'expérience du notebook est intuitive, l'ensemble des fonctionnalités est immense, et les Asset Bundles ont vraiment solidifié notre histoire CI/CD avec Azure DevOps. L'intégration avec les services cloud a été fluide, et une fois les choses mises en place, elles fonctionnent simplement. La courbe d'apprentissage peut être raide pour les nouveaux membres de l'équipe, surtout autour de choses comme Unity Catalog et DABs, et les coûts peuvent augmenter si vous ne surveillez pas les configurations de cluster. Le support est correct et la documentation est suffisamment solide pour que nous ayons rarement besoin d'ouvrir un ticket. Dans l'ensemble, c'est une plateforme puissante qui fait beaucoup sous un même toit, et il est difficile d'imaginer notre flux de travail en ingénierie des données sans elle.

**Que n’aimez-vous pas à propos de Databricks?**

Le coût peut augmenter rapidement si vous ne faites pas attention à la taille des clusters et aux configurations des tâches, donc cela demande un certain effort pour garder les choses optimisées. De plus, la courbe d'apprentissage pour les nouveaux membres de l'équipe peut être raide, surtout autour de choses comme les Asset Bundles, le Unity Catalog, et le bon câblage des éléments CI/CD.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout le problème des données fragmentées réparties sur plusieurs systèmes comme SAP et Arkieva en nous offrant une plateforme unifiée pour tout extraire, transformer et servir. Cela signifie que nos équipes commerciales obtiennent des données propres, fiables et prêtes pour le reporting sans que nous ayons à jongler avec une multitude d'outils distincts, et nous pouvons déployer et gérer le tout de manière cohérente à travers les environnements en toute confiance.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que Databricks a joué un rôle clé dans la rationalisation de votre flux de travail en ingénierie des données et vous a fourni une plateforme puissante pour vos besoins. Nous apprécions vos commentaires sur la courbe d'apprentissage et les considérations de coût, et nous travaillons continuellement à nous améliorer dans ces domaines.

  ### 25. Flux de travail de données rationalisés et collaboratifs avec des performances puissantes

**Rating:** 5.0/5.0 stars

**Reviewed by:** Dharun T. | Senior Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 01, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la façon dont il simplifie l'ensemble du flux de travail des données en réunissant le traitement, l'analyse et l'apprentissage automatique sur une seule plateforme. L'environnement de notebook collaboratif facilite le partage de code, de contexte et de raisonnement avec les coéquipiers, ce qui aide tout le monde à rester aligné. Il fonctionne également très bien sur de grands ensembles de données tout en abstrahant la plupart de la gestion des clusters, ce qui me permet de me concentrer sur la résolution du problème plutôt que sur la gestion de l'infrastructure. De plus, le contrôle d'accès centralisé et la visibilité claire de l'utilisation des données soutiennent une gouvernance responsable des données, offrant un équilibre solide entre puissance et facilité d'utilisation.

**Que n’aimez-vous pas à propos de Databricks?**

Databricks présente quelques inconvénients, bien que beaucoup d'entre eux ressemblent davantage à des compromis qu'à de véritables points négatifs. Ma plus grande préoccupation est le coût : si les clusters ne sont pas gérés avec soin, les dépenses peuvent augmenter rapidement, même si la plateforme peut évoluer très efficacement lorsqu'elle est correctement ajustée. Il y a aussi une véritable courbe d'apprentissage avec Spark et les concepts de calcul distribué, et le débogage ou l'optimisation des performances peuvent être plus complexes qu'avec des outils plus simples. Enfin, parce qu'il s'agit d'un service géré, vous renoncez à un certain contrôle de bas niveau par rapport aux systèmes auto-hébergés, mais l'avantage est que cela vous décharge de beaucoup de travail opérationnel et d'infrastructure.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Parce que mon client a besoin de code sécurisé et réutilisable, Databricks nous aide à écrire du Python efficacement tout en appliquant les principes de la POO et les modèles de conception. Cela rend également simple l'extension des fonctionnalités au fil du temps et la création de code personnalisé qui interagit avec les API et les bases de données.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que vous trouvez Databricks être une plateforme puissante et rationalisée pour les flux de travail collaboratifs de données. Nous comprenons les préoccupations concernant la gestion des coûts et la courbe d'apprentissage associée aux concepts de calcul distribué. Nous travaillons continuellement à améliorer notre plateforme et à fournir des ressources pour aider les utilisateurs à optimiser leur utilisation et à surmonter les défis.

  ### 26. Databricks : Solution tout-en-un pour les données et l'analytique

**Rating:** 5.0/5.0 stars

**Reviewed by:** FABIN P. | Senior Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 01, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est qu'il rassemble tout en un seul endroit, ce qui facilite le travail sur les données, la construction de modèles et la gestion des flux de travail. Il aide les équipes à collaborer facilement en temps réel. Il fonctionne également très rapidement avec de grandes quantités de données en utilisant Apache Spark, et des fonctionnalités comme l'automatisation et Delta Lake simplifient grandement la gestion des big data.

**Que n’aimez-vous pas à propos de Databricks?**

Une chose que je n'aime pas à propos de Databricks, c'est que cela peut être coûteux, surtout pour les charges de travail importantes. Parfois, l'interface et la configuration peuvent sembler complexes pour les débutants. De plus, la gestion des clusters et des configurations peut demander un certain effort si vous n'êtes pas très familier avec cela.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks résout le problème de la gestion de grandes quantités de données de manière efficace. Il regroupe l'ingénierie des données, l'analyse et l'apprentissage automatique sur une seule plateforme. Cela élimine le besoin d'utiliser plusieurs outils. Il aide à un traitement plus rapide des données en utilisant Apache Spark. Il facilite la collaboration pour les équipes. Il simplifie la création et la gestion des pipelines de données. Il améliore la fiabilité des données avec des fonctionnalités comme Delta Lake. Il réduit le travail manuel grâce à l'automatisation. Il permet de gagner du temps et des efforts dans les tâches quotidiennes. Dans l'ensemble, il m'aide à travailler plus rapidement et plus efficacement avec les données.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que Databricks a joué un rôle clé dans la rationalisation de votre flux de travail en ingénierie des données et vous a fourni une plateforme puissante pour vos besoins. Nous apprécions vos commentaires sur la courbe d'apprentissage et les considérations de coût, et nous travaillons continuellement à nous améliorer dans ces domaines.

  ### 27. Du chaos de Hive au catalogue Unity - Ça vaut chaque DBU

**Rating:** 5.0/5.0 stars

**Reviewed by:** Balakumaran R. | Data Team Lead, Entreprise (> 1000 employés)

**Reviewed Date:** March 31, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Unity Catalog a été la plus grande valeur ajoutée pour notre migration d'entreprise. Nous sommes passés d'une architecture Hive Metastore à Unity Catalog et avons obtenu une gouvernance centralisée, un suivi de la lignée et un contrôle d'accès granulaire sur tous nos actifs de données sans ajouter d'outils tiers. Pour une organisation multi-domaines (finance, fabrication, chaîne d'approvisionnement, approvisionnement), avoir un catalogue unique qui applique une nomenclature et des autorisations cohérentes à travers les couches bronze, argent, or et platine nous a permis d'économiser des semaines de travail manuel sur les politiques.

UI/UX : L'expérience du notebook avec Spark SQL et PySpark en ligne, combinée avec le navigateur de fichiers de l'espace de travail, rend le développement et le test des transformations itératifs simples pour notre équipe. L'éditeur SQL pour les requêtes ad hoc contre les tables Unity Catalog est propre et réactif.

Intégrations : Le support natif de Delta Lake signifie que nous ne gérons pas les conversions de format. L'intégration Azure Key Vault via les portées secrètes (dbutils.secrets.get) garde les identifiants hors du code. L'intégration ADF pour l'orchestration dans notre environnement V1 a été transparente, et les Databricks Asset Bundles (DAB) pour le déploiement V2 nous offrent un chemin CI/CD propre avec des configurations databricks.yml ciblant dev/qa/prod sans script personnalisé.

Performance : Passer aux CTEs plutôt qu'aux vues temporaires dans nos notebooks Gold a réduit la pression sur la mémoire du cluster de manière notable. La capacité de dimensionner correctement les clusters par environnement (1 worker pour le développement, 3 pour la production) avec des nœuds Standard_D4ds_v5 maintient les coûts prévisibles tout en maintenant la performance pour nos charges de travail ETL par lots.

Tarification/ROI : Le modèle de calcul à la demande associé aux clusters en mode de sécurité à utilisateur unique signifie que nous ne surprovisionnons pas. Consolider notre couche ETL, de gouvernance et de service BI en une seule plateforme a éliminé les licences pour des outils de catalogue, d'orchestration et de qualité des données séparés.

AI/Intelligence (Genie) : Les Genie Spaces ont été une victoire inattendue. Nos analystes commerciaux en finance et chaîne d'approvisionnement peuvent poser des questions en langage naturel sur des tables Gold/Platinum sélectionnées sans écrire de SQL. Cela a réduit le nombre de demandes de rapports ad hoc adressées à l'équipe de données en offrant aux utilisateurs de domaine un chemin en libre-service qui respecte toujours les autorisations Unity Catalog.

Support/Intégration : La documentation est complète, et l'approche basée sur les compétences pour l'apprentissage (bundles, Unity Catalog, jobs, SQL) correspond bien à la façon dont notre équipe travaille réellement. L'intégration de nouveaux ingénieurs à l'architecture V2 a pris environ la moitié du temps par rapport à V1 car les conventions de la plateforme (architecture médaillon, bundles d'actifs, nomenclature de catalogue) sont bien documentées et cohérentes.

**Que n’aimez-vous pas à propos de Databricks?**

UI/UX : L'éditeur de notebook semble toujours en retard par rapport aux IDE dédiés. Pas de recherche multi-fichiers native, support de refactoring limité, et l'interface utilisateur de l'intégration git est maladroite pour les équipes gérant des dizaines de notebooks à travers des ensembles de flux de travail. Nous avons fini par faire tout le développement réel dans VS Code et traiter l'espace de travail Databricks comme une cible de déploiement, ce qui ajoute de la friction. Le navigateur de fichiers de l'espace de travail ne gère pas bien les structures de dossiers lorsque vous avez plus de 50 notebooks organisés par domaine, il n'y a pas de filtrage, de balisage ou de favoris.

Intégrations : Les Databricks Asset Bundles (DAB) sont un pas en avant, mais la documentation présente des lacunes pour les déploiements complexes multi-bundles. Nous exécutons un bundle Global_Utilities partagé dont dépendent d'autres bundles de flux de travail, et faire fonctionner de manière fiable les références inter-bundles à travers les cibles dev/qa/prod a nécessité beaucoup d'essais et d'erreurs. L'intégration ADF-à-Databricks fonctionne, mais déboguer les exécutions de pipeline échouées signifie passer de l'interface de surveillance ADF aux exécutions de tâches Databricks sans vue unifiée. Une meilleure synchronisation entre l'orchestration et la surveillance des calculs permettrait de gagner des heures de dépannage.

Performance : Les temps de démarrage à froid des clusters restent un point douloureux pour les flux de travail de développement. Démarrer un cluster Standard_D4ds_v5 à nœud unique prend 4 à 7 minutes, ce qui casse le flux lorsque vous itérez sur la logique du notebook. Le calcul sans serveur aide mais n'est pas encore disponible pour tous les types de charges de travail, et la prime de coût est difficile à justifier pour les environnements de développement/test.

Tarification/ROI : Le modèle de tarification DBU est opaque pour la planification de la capacité. Estimer les coûts mensuels pour un projet avec plus de 30 tâches planifiées, des clusters de développement interactifs et des requêtes d'entrepôt SQL nécessite de construire des feuilles de calcul personnalisées car les outils de gestion des coûts intégrés ne vous donnent pas une prévision claire par flux de travail ou domaine. Nous avons été surpris par des pics de coûts provenant de tâches qui ont duré plus longtemps que prévu sans moyen facile de définir des alertes budgétaires par tâche.

Support/Intégration : Les temps de réponse du support entreprise sont incohérents. Les problèmes critiques avec les permissions Unity Catalog lors de notre migration ont pris 3 à 5 jours ouvrables pour le tri initial, ce qui a retardé notre calendrier de déploiement. Les forums communautaires sont utiles pour les modèles courants, mais pour les cas particuliers d'Unity Catalog (lignage inter-catalogue, héritage complexe des permissions), la base de connaissances est mince.

IA/Intelligence : Genie est prometteur mais encore brut pour une utilisation en production. Il a du mal avec les jointures sur plus de 3-4 tables, génère parfois des SQL incorrects contre notre couche Gold, et il n'y a pas de moyen facile de curer ou de corriger ses réponses pour améliorer la précision au fil du temps. Nos utilisateurs professionnels étaient enthousiastes, ont essayé, ont rencontré des réponses erronées sur des questions modérément complexes, et ont perdu confiance. Une boucle de rétroaction où les experts du domaine peuvent signaler et corriger les sorties de Genie le rendrait véritablement prêt pour la production.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Fragmentation de la Gouvernance des Données → Catalogue Unifié Nous avons eu des difficultés avec un environnement Hive Metastore où la propriété des tables, le contrôle d'accès et la traçabilité étaient gérés par un patchwork de documentation manuelle et de scripts personnalisés. Après avoir mis en place Unity Catalog, nous avons désormais une gouvernance centralisée à travers 4 couches de catalogue (bronze, argent, or, platine) couvrant 6 domaines d'activité. Ce qui nécessitait auparavant un gestionnaire de données à plein temps pour suivre manuellement est maintenant appliqué automatiquement grâce aux autorisations au niveau du catalogue et à la traçabilité. Cela a réduit notre temps de provisionnement d'accès de plusieurs jours à moins d'une heure par demande.

Logique ETL Cloisonnée → Architecture Médaillon Standardisée Avant Databricks, nos pipelines ETL étaient incohérents — différentes équipes écrivaient les transformations différemment, sans utilitaires ou modèles partagés. Nous avons construit un cadre standardisé (Batch_Utilities.py) avec des fonctions réutilisables pour la validation de schéma, les opérations de fusion, les contrôles de qualité des données et la gestion des colonnes d'audit. Chaque notebook dans tous les domaines suit maintenant la même structure en 7 cellules. Cela a réduit le temps de développement de nouveaux notebooks de 2-3 jours à environ 4 heures, et l'intégration d'un nouveau développeur au modèle prend un après-midi au lieu d'une semaine.

Échecs Coûteux de Rafraîchissement de Rapports → Orchestration Fiable des Pipelines Nous avions des problèmes récurrents avec les rapports Power BI tirant des données obsolètes ou incomplètes parce que les tâches en amont échouaient silencieusement. Avec Databricks Jobs et le suivi des pipelines basé sur les métadonnées (statut du pipeline, horodatages de début/fin enregistrés par exécution), nous détectons maintenant les échecs au niveau de la transformation avant qu'ils ne se propagent aux rapports. Les problèmes de fraîcheur des données des rapports ont diminué d'environ 80 %, et notre équipe financière a cessé de programmer des réunions de "vérification des données" qui consommaient 3-4 heures par semaine.

Chaos de Déploiement Multi-Environnement → Paquets d'Actifs Le déploiement de notebooks à travers dev, QA et production impliquait des copies de fichiers manuelles et des modifications de configuration spécifiques à l'environnement — sujettes aux erreurs et lentes. Les Paquets d'Actifs Databricks nous ont fourni des configurations databricks.yml déclaratives avec substitution de variables par cible. Un déploiement qui prenait 45 minutes de démarches manuelles s'exécute maintenant en moins de 5 minutes via CLI. Nous déployons en toute confiance car la même définition de paquet est validée avant d'atteindre la production.

Écart d'Analytique en Libre-Service → Genie + Couche Platine Les analystes commerciaux dans la chaîne d'approvisionnement et la finance étaient entièrement dépendants de l'équipe de données pour toute analyse ad hoc. En construisant des tables Platine dénormalisées optimisées pour le reporting et en les exposant via Genie Spaces, nous avons permis des requêtes en libre-service en langage naturel. L'adoption précoce a réduit les demandes de rapports ad hoc à l'équipe de données d'environ 30 %, libérant ainsi la capacité d'ingénierie pour le développement de nouvelles fonctionnalités.

Visibilité des Coûts → Calcul Dimensionné Correctement Nous surprovisionnions les clusters car nous n'avions pas de vue claire de l'utilisation réelle. En standardisant sur les nœuds Standard_D4ds_v5 avec des comptes de travailleurs spécifiques à l'environnement (1 pour dev/QA, 3 pour la production) et un mode de sécurité à utilisateur unique, nous avons réduit nos dépenses mensuelles de calcul d'environ 25 % par rapport au modèle de cluster partagé que nous utilisions en V1.

**Official Response from Janelle Glover:**

> Nous apprécions vos commentaires détaillés sur votre expérience avec Databricks. C'est formidable d'entendre que Unity Catalog, l'UI/UX, les intégrations, la performance, Genie, et le support/l'intégration ont eu un impact positif sur la migration de votre entreprise. Nous comprenons les domaines d'amélioration que vous avez mentionnés et nous les prendrons en compte pour de futures améliorations.

  ### 28. Databricks : Plateforme intuitive et unifiée avec des intégrations transparentes et un support rapide

**Rating:** 5.0/5.0 stars

**Reviewed by:** Sabareeswar K. | Data Engineer, Entreprise (> 1000 employés)

**Reviewed Date:** April 01, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

En tant qu'ingénieur de données, Databricks est devenu ma plateforme de référence pour le travail de données de bout en bout. La facilité d'utilisation est exceptionnelle : les notebooks, Delta Live Tables et Genie ont tous des interfaces intuitives qui réduisent considérablement le temps de montée en compétence. La mise en œuvre a été fluide grâce à une documentation excellente et un support client réactif qui résout réellement les problèmes rapidement. Je l'utilise quotidiennement, et le nombre impressionnant de fonctionnalités, de Unity Catalog à AI/BI Genie, ne cesse de croître. L'intégration avec le stockage cloud, les outils BI et les frameworks ML est transparente, en faisant une véritable plateforme unifiée.

**Que n’aimez-vous pas à propos de Databricks?**

Un défi est le manque de transparence des coûts à un niveau granulaire de tâche ; il est difficile de déterminer exactement quel pipeline ou quel notebook augmente la consommation de DBU sans investir dans une surveillance personnalisée. Les clusters à mise à l'échelle automatique, bien que puissants, peuvent faire grimper les coûts de manière silencieuse du jour au lendemain s'ils ne sont pas configurés avec des limites appropriées. De plus, les niveaux de l'entrepôt SQL peuvent être déroutants à choisir dès le départ, rendant la planification budgétaire délicate pour les équipes. Un tableau de bord intégré d'allocation des coûts par tâche ou par utilisateur serait une amélioration considérable pour la gouvernance quotidienne des coûts.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks a éliminé les silos entre nos équipes d'ingénierie des données, d'analytique et de ML. Auparavant, nous jonglions avec plusieurs outils pour l'ingestion, la transformation et le reporting. Maintenant, tout se trouve dans un seul lakehouse. Genie a été un véritable changement de jeu : les parties prenantes de l'entreprise peuvent poser des questions en langage naturel directement sur nos données sans écrire de SQL, ce qui réduit considérablement les goulots d'étranglement des demandes ad hoc pour notre équipe d'ingénierie. La prise de décision est plus rapide, les données sont plus démocratisées, et nous avons réduit de manière significative les frais généraux de notre pipeline de reporting.

**Official Response from Janelle Glover:**

> C'est formidable d'apprendre que Databricks a aidé à éliminer les silos entre vos équipes d'ingénierie des données, d'analytique et de ML. Nous sommes ravis que Genie ait été un atout majeur pour vos parties prenantes commerciales. Nous comprenons également les défis que vous avez mentionnés concernant la transparence des coûts et l'auto-scalabilité des clusters. Nous travaillons continuellement à améliorer notre plateforme et prendrons vos suggestions en compte pour de futures améliorations.

  ### 29. Databricks rend les flux de travail de données de bout en bout rapides, collaboratifs et faciles.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Karuppusamy V. | Technical Lead, Entreprise (> 1000 employés)

**Reviewed Date:** March 31, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la façon dont il simplifie l'ensemble du flux de travail des données. Au lieu de passer d'un outil à l'autre pour le traitement des données, l'analyse et l'apprentissage automatique, tout est disponible en un seul endroit. L'environnement de notebook rend la collaboration vraiment fluide, il est naturel de travailler avec des coéquipiers, de partager du code et d'expliquer la logique sans effort supplémentaire.

Une autre chose que j'apprécie est la performance. Travailler avec de grands ensembles de données peut généralement être pénible, mais Databricks le gère efficacement en arrière-plan. Vous n'avez pas à vous soucier beaucoup de la gestion des clusters ou de l'optimisation manuelle, cela fonctionne la plupart du temps, ce qui vous permet de vous concentrer davantage sur la résolution du problème réel plutôt que sur la gestion de l'infrastructure.

Ce qui ressort également, c'est la façon dont il gère la gouvernance et l'organisation des données. Avec des fonctionnalités comme le contrôle d'accès centralisé et une meilleure visibilité sur l'utilisation des données, il devient beaucoup plus facile de gérer les données de manière responsable, surtout dans les projets de grande envergure. Dans l'ensemble, il offre un bon équilibre entre puissance et facilité d'utilisation, c'est pourquoi j'aime travailler avec lui.

**Que n’aimez-vous pas à propos de Databricks?**

Une chose que je n'aime pas particulièrement à propos de Databricks, c'est que cela peut devenir coûteux assez rapidement, surtout si les clusters ne sont pas gérés correctement. Si vous oubliez de terminer les clusters ou exécutez des charges de travail lourdes sans optimisation, les coûts peuvent augmenter sans beaucoup de visibilité au début. Pour les équipes qui apprennent encore ou expérimentent, cela peut devenir une préoccupation.

Un autre inconvénient est que le débogage peut parfois sembler un peu compliqué, en particulier lorsque l'on travaille avec des tâches distribuées. Les erreurs ne sont pas toujours simples, et tracer les problèmes à travers plusieurs nœuds peut prendre plus de temps par rapport à un environnement local plus simple. Cela nécessite un certain niveau d'expérience pour comprendre rapidement et résoudre les problèmes.

De plus, bien que la plateforme soit puissante, elle présente une certaine courbe d'apprentissage pour les débutants. Des concepts comme la configuration des clusters, la planification des tâches et la gouvernance des données ne sont pas toujours très intuitifs au début. Il faut un certain temps de pratique avant de se sentir pleinement à l'aise pour naviguer et utiliser tout efficacement.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Ce que Databricks résout vraiment, c'est le problème de la gestion des données à grande échelle sans rendre le processus trop complexe. Auparavant, travailler avec de grandes quantités de données signifiait utiliser plusieurs outils, gérer l'infrastructure et passer beaucoup de temps à tout mettre en place. Databricks simplifie tout cela en réunissant l'ingénierie des données, l'analytique et l'apprentissage automatique en un seul endroit, de sorte que l'accent est davantage mis sur la résolution des problèmes commerciaux réels plutôt que sur la gestion des systèmes.

Il résout également les problèmes de performance et de scalabilité. Lorsqu'on travaille avec d'énormes volumes de données, les systèmes traditionnels ont souvent du mal ou ralentissent. Databricks gère cela efficacement en arrière-plan, permettant aux charges de travail de s'adapter sans beaucoup d'efforts manuels. Pour moi, cela signifie que je peux traiter de grands ensembles de données plus rapidement et exécuter des transformations ou des requêtes sans me soucier constamment de l'optimisation des performances.

Un autre grand problème qu'il résout est la collaboration et la gestion des données. Dans de nombreux projets, les équipes ont du mal avec le contrôle de version, la gestion des accès et le maintien de la cohérence des données. Databricks facilite la collaboration, le suivi des modifications et le contrôle de qui peut accéder à quoi. Cela m'aide à travailler plus harmonieusement avec les autres, réduit les erreurs et garantit que les données que j'utilise sont fiables et bien gérées.

**Official Response from Janelle Glover:**

> Nous sommes heureux d'apprendre que vous trouvez Databricks être une plateforme complète et efficace pour gérer les flux de travail de données. Nous comprenons vos préoccupations concernant la gestion des coûts et la courbe d'apprentissage pour les débutants, et nous partagerons vos commentaires avec notre équipe pour un examen plus approfondi.

  ### 30. Databricks unifie les données, l'analytique et le ML pour des workflows Lakehouse évolutifs

**Rating:** 5.0/5.0 stars

**Reviewed by:** Harshavarthini G. | Data Architect, Entreprise (> 1000 employés)

**Reviewed Date:** March 31, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Databricks est particulièrement utile car il réunit l'ingénierie des données, l'analytique et l'apprentissage automatique sur une seule plateforme unifiée, ce qui réduit le besoin de gérer plusieurs outils distincts. Construit sur Apache Spark, il peut traiter des ensembles de données massifs rapidement et s'adapter en douceur à mesure que les charges de travail augmentent, ce qui en fait un choix idéal pour les cas d'utilisation de big data. Il prend également en charge des notebooks collaboratifs où les équipes peuvent travailler ensemble dans des langages comme Python et SQL, ce qui facilite la collaboration efficace entre les data scientists et les ingénieurs.

Avec son architecture de lakehouse alimentée par Delta Lake, Databricks combine la flexibilité des data lakes avec la fiabilité des entrepôts de données, aidant à assurer une meilleure cohérence et performance des données. De plus, il s'intègre avec des outils comme MLflow pour rationaliser le cycle de vie de l'apprentissage automatique de bout en bout, de l'expérimentation au déploiement. Dans l'ensemble, Databricks simplifie les flux de travail de données complexes, améliore les performances et aide les organisations à construire des solutions de données et d'IA évolutives plus efficacement.

**Que n’aimez-vous pas à propos de Databricks?**

Databricks a effectivement certaines limitations, bien que beaucoup d'entre elles ressemblent davantage à des compromis qu'à de véritables inconvénients. Un inconvénient souvent cité est le coût : bien que la plateforme soit flexible et évolutive, les dépenses peuvent augmenter rapidement si les clusters ne sont pas gérés avec soin. En même temps, ce coût reflète souvent sa capacité à gérer des charges de travail très importantes de manière efficace lorsqu'elle est correctement optimisée.

Une autre considération est la courbe d'apprentissage, surtout pour les débutants qui ne sont pas familiers avec Apache Spark ou les systèmes distribués. Cette complexité peut être difficile au début, mais elle s'accompagne également de capacités puissantes une fois que vous vous y êtes habitué. Certains utilisateurs trouvent également que le débogage et l'optimisation des performances sont moins simples qu'avec des outils plus simples ; cependant, Databricks offre des fonctionnalités de surveillance et d'optimisation détaillées qui peuvent faciliter ces tâches au fil du temps.

Enfin, parce qu'il s'agit d'une plateforme gérée, il peut y avoir un sentiment de contrôle réduit par rapport aux systèmes entièrement autogérés. En retour, cela élimine une grande partie de la charge opérationnelle liée à la gestion de l'infrastructure. Dans l'ensemble, bien que ces aspects puissent être considérés comme les « moins utiles », ils sont souvent compensés par l'évolutivité, l'intégration et les gains de productivité de la plateforme.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks aide à résoudre le défi des données fragmentées et des flux de travail déconnectés à travers plusieurs secteurs d'activité en fournissant une plateforme unifiée de lakehouse. Dans mon rôle d'ingénieur de données, cela me permet de consolider les données de différentes sources en un système unique et fiable en utilisant Apache Spark pour un traitement évolutif et Delta Lake pour assurer la qualité et la cohérence des données. Cela réduit considérablement la complexité des pipelines, améliore la fiabilité et permet une livraison plus rapide de données propres et gouvernées aux équipes en aval. En conséquence, je suis capable de soutenir les cas d'utilisation d'analytique et d'apprentissage automatique plus efficacement tout en minimisant les frais d'exploitation et en améliorant la productivité globale de l'organisation.

**Official Response from Janelle Glover:**

> Merci de partager vos expériences positives avec Databricks. C'est formidable d'entendre que la capacité de la plateforme à réunir l'ingénierie des données, l'analytique et l'apprentissage automatique dans une plateforme unifiée profite à votre organisation. Nous comprenons les compromis et les défis que vous avez mentionnés, et nous travaillons continuellement sur ces aspects de notre plateforme.

  ### 31. Databricks simplifie le processus ETL de bout en bout avec Unity Catalog et le débogage alimenté par l'IA

**Rating:** 4.5/5.0 stars

**Reviewed by:** Dinesh Sundar S. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 30, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce qui me frappe, c'est la façon dont Databricks simplifie le cycle de vie ETL de bout en bout. L'intégration constante de nouvelles fonctionnalités par la plateforme a considérablement réduit les frictions liées à l'ingestion de données provenant d'une large gamme de systèmes sources.

Unity Catalog (UC) a également révolutionné l'administration des données. Il offre une couche de gouvernance centralisée et robuste qui rend la gestion d'environnements complexes beaucoup plus intuitive et facile à contrôler.

Je suis particulièrement impressionné par les récentes mises à jour pilotées par l'IA. Genie Code est devenu une partie essentielle de mon flux de travail ; il a considérablement amélioré ma vitesse de débogage et s'avère déjà être un atout précieux dans mon projet de migration UC actuel. Dans l'ensemble, la façon dont Databricks associe l'ingénierie des données traditionnelle à l'intelligence assistée semble véritablement avant-gardiste.

**Que n’aimez-vous pas à propos de Databricks?**

Bien que Auto Loader soit puissant, il existe encore des lacunes notables dans le Lakehouse Data Pipeline (LDP) concernant l'inférence de schéma. Actuellement, lorsque inferSchema est activé, le schéma inféré ne s'applique qu'au premier niveau de la hiérarchie. Dans les ensembles de données complexes avec des champs multi-niveaux, le manque d'inférence de schéma en profondeur crée une surcharge manuelle et rend les pipelines de streaming CDC plus difficiles à construire et à maintenir.

Lakeflow Connect semble être un pas dans la bonne direction, mais la bibliothèque de connecteurs natifs semble encore incomplète par rapport à certains concurrents. Et bien que les fonctionnalités d'IA (comme Genie) soient prometteuses et vraiment intéressantes, elles donnent encore l'impression d'être à un stade de "développement" — manquant parfois de la cohérence nécessaire pour des environnements de production à enjeux élevés. J'aimerais voir ces capacités évoluer d'« extras innovants » en outils robustes et prêts pour la production.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Le Problème : Silos de Données et Opérations de Support Inefficaces
Dans de nombreuses organisations, les connaissances institutionnelles critiques finissent dispersées à travers des systèmes déconnectés tels que MySQL (structuré), Jira (transactionnel) et Confluence (non structuré). Lorsque l'information est fragmentée de cette manière, les équipes de support ont du mal à trouver des réponses rapides et précises pour les tickets entrants. Le résultat est un MTTR (temps moyen de résolution) plus élevé et beaucoup d'efforts manuels et répétitifs.

La Solution : Une « Plateforme d'Intelligence » Unifiée
Databricks répond à ce problème en servant de tissu unique qui connecte ces silos. Dans mon travail, je me concentre sur l'utilisation du Lakehouse Data Pipeline (LDP) pour ingérer et unifier ces différentes sources dans un environnement gouverné unique.

Comment cela bénéficie à mon projet :
J'utilise Databricks pour une ingestion fluide, centralisant les données de MySQL, Jira et Confluence pour construire une « Base de Connaissances » complète sans avoir à gérer plusieurs outils ETL disparates.

Je m'appuie également sur l'intégration native de l'IA. Avec Mosaic AI Vector Search, je peux convertir les données unifiées en embeddings directement au sein de la plateforme, ce qui me permet de construire un Agent d'Automatisation IA pour notre système de tickets.

Enfin, cela soutient la solution automatisée. L'agent peut effectuer une correspondance vectorielle sur les tickets nouvellement créés par rapport à la base de connaissances historique complète et proposer ensuite des solutions précises et contextuelles aux ingénieurs immédiatement.

L'Impact
Le plus grand avantage pour nous est la vitesse opérationnelle. Databricks a transformé nos données d'une archive passive en un moteur « intelligent » actif. Cela réduit le temps passé en recherche manuelle et nous aide à automatiser la première ligne de support, améliorant la précision des résolutions de tickets tout en réduisant la charge sur nos équipes techniques.

**Official Response from Janelle Glover:**

> Merci d'avoir partagé votre expérience positive avec Databricks ! Nous sommes ravis d'apprendre que la simplification du cycle de vie ETL de bout en bout de notre plateforme et le Unity Catalog ont été des éléments déterminants pour votre administration des données. Nous apprécions vos commentaires sur les mises à jour pilotées par l'IA et sommes ravis d'apprendre que Genie a amélioré votre flux de travail. Nous nous engageons à améliorer continuellement notre plateforme pour offrir une expérience avant-gardiste à nos utilisateurs.

  ### 32. Rapide, transparent Databricks pour les pipelines de Big Data et l'analyse en un seul endroit

**Rating:** 4.5/5.0 stars

**Reviewed by:** Demetrius A. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 31, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la rapidité et la connectivité de tout le système. Comparé à d'autres plateformes, il gère des pipelines de big data lourds sans effort. Mais le meilleur, c'est la facilité d'utilisation des données une fois traitées. Que j'aie besoin de construire un tableau de bord analytique rapide ou d'entraîner des modèles d'apprentissage automatique personnalisés spécifiques à nos données, tout se connecte de manière transparente. Cela élimine le casse-tête du déplacement des données et vous permet de tout faire au même endroit.

**Que n’aimez-vous pas à propos de Databricks?**

Si je devais choisir ce que je n'aime pas, cela se résume principalement au coût et à la complexité que cela peut avoir.

Tout d'abord, cela peut devenir très cher très rapidement. Si vous ne faites pas attention à gérer vos clusters de calcul et à les éteindre lorsque vous avez terminé, les factures peuvent vous surprendre.

Deuxièmement, cela peut parfois sembler excessif pour des tâches plus simples. Étant donné que c'est conçu pour des données massives, devoir fouiller dans des journaux d'erreurs compliqués lorsque quelque chose se casse peut être un vrai casse-tête comparé à l'utilisation d'outils plus légers.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Le principal problème que Databricks m'aide à résoudre dans mon entreprise est la performance. Nous devions attendre des heures pour que les pipelines s'exécutent dans ADF, et maintenant nous pouvons les terminer en quelques minutes.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que vous trouvez Databricks rapide et fluide pour gérer les pipelines de big data et l'analytique. Nous comprenons vos préoccupations concernant le coût et la complexité, et nous travaillons continuellement à optimiser ces aspects de notre plateforme pour relever ces défis.

  ### 33. Plateforme ML unifiée qui élimine les frictions d'infrastructure

**Rating:** 5.0/5.0 stars

**Reviewed by:** Hirlekha M. | AI/ ML Technical Lead, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 30, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

L'expérience de la plateforme unifiée est vraiment difficile à battre — avoir MLflow pour le suivi des expériences, Unity Catalog pour la gouvernance, la recherche vectorielle et des points de terminaison sans serveur, tout cela au même endroit, élimine tellement de frictions d'infrastructure. Les pipelines d'ingénierie des caractéristiques et le déploiement de modèles semblent cohérents plutôt que rapiécés. Le flux de travail hybride entre l'entrepôt SQL et le notebook facilite également le passage entre l'ingénierie des données et le travail de ML sans changer d'outils.

**Que n’aimez-vous pas à propos de Databricks?**

Les points de terminaison sans serveur ont quelques bords tranchants — l'initialisation du contexte Spark se comporte différemment que dans les clusters interactifs, ce qui peut entraîner des échecs silencieux si vous ne faites pas attention à l'endroit où vous initialisez les choses. La latence de démarrage à froid sur le sans serveur est également perceptible pour les points de terminaison de production à faible trafic. La documentation concernant certaines des nouvelles fonctionnalités (comme les configurations d'index de recherche vectorielle) a tendance à être en retard par rapport au comportement réel du produit, ce qui vous oblige à faire beaucoup d'essais et d'erreurs.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Nous utilisons Databricks pour consolider le développement de modèles ML, l'ingénierie des caractéristiques et le déploiement pour une plateforme de cartes et de paiements — un travail qui nécessitait auparavant de jongler avec des outils séparés pour le traitement des données, l'entraînement et le service. L'environnement unifié signifie que nos ingénieurs ML peuvent passer des données de transaction brutes à un modèle de prédiction de désabonnement déployé sans quitter la plateforme. Le suivi MLflow rend les expériences reproductibles, et Unity Catalog nous offre l'histoire de gouvernance des données dont notre client bancaire a besoin. Cela a considérablement réduit la surcharge de coordination qui accompagne les pipelines ML multi-outils.

**Official Response from Janelle Glover:**

> C'est formidable d'entendre comment Databricks a rationalisé vos flux de travail ML et réduit les frais généraux de coordination. Nous apprécions vos commentaires sur les points de terminaison sans serveur et la documentation, et nous nous efforcerons de résoudre ces problèmes pour améliorer votre expérience avec notre plateforme.

  ### 34. Lakebase : Alimenter les données et l'IA ensemble

**Rating:** 5.0/5.0 stars

**Reviewed by:** Ajay P. | Manager - Data, AI &amp; Automation, Petite entreprise (50 employés ou moins)

**Reviewed Date:** September 08, 2024

**Qu'aimez-vous le plus à propos de Databricks?**

J'utilise Lakebase dans Databricks comme fondation pour nos solutions d'IA, où les modèles de données et les applications fonctionnent ensemble de manière transparente. Lakebase fournit une base de données unifiée unique pour construire de l'IA directement sur des données cohérentes et en temps réel. J'aime aussi Agent Bricks dans Databricks car il nous aide à construire rapidement des agents d'IA intelligents et à automatiser les flux de travail en utilisant ces données. La facilité d'installation a été un atout majeur pour nous, car il était très facile de commencer.

**Que n’aimez-vous pas à propos de Databricks?**

Agentbricks a besoin de plus d'intégration native pour réduire la configuration manuelle et accélérer l'automatisation du flux de travail.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks - Lakebase nous aide à réunir les données et l'IA sur une seule plateforme, réduisant ainsi la complexité et évitant les mouvements de données. Agent Bricks nous permet de créer rapidement des agents d'IA intelligents et d'automatiser les flux de travail en utilisant des données en temps réel.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que vous trouvez Lakebase simple à utiliser et riche en fonctionnalités pour développer des pipelines de données et de l'IA. C'est formidable de savoir qu'il a été utile pour mettre en œuvre GenAI et s'intégrer avec différentes sources grâce à LakeFlow.

  ### 35. De 1 heure à 10 minutes : Comment Databricks a modernisé notre flux de travail

**Rating:** 4.5/5.0 stars

**Reviewed by:** Mukundan R. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 30, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Nous utilisions ADF pour obtenir des données de SQL Server, puis nous les traitions dans Databricks avant de les intégrer dans Salesforce. Tout le processus prenait plus d'une heure car ADF ajoutait du travail supplémentaire. Maintenant, tout se passe à l'intérieur de Databricks. Nous transformons les données brutes dans Databricks et les intégrons dans Salesforce, le tout au même endroit. Cela a rendu le processus beaucoup plus rapide, il ne prend maintenant que 10 minutes. C'est une amélioration par rapport à ce que nous avions avec ADF.
Delta Lake a également été très utile. Il nous aide à suivre les changements et à revenir en arrière si quelque chose ne va pas. Nous pouvons voir ce qui s'est passé avant et corriger facilement les erreurs.
Delta Lake s'assure également que les données sont bonnes avant d'entrer dans le pipeline. Il empêche les données de s'intégrer et de causer des problèmes plus tard dans Salesforce. Cela rend le processus plus fiable et plus facile à gérer.

**Que n’aimez-vous pas à propos de Databricks?**

Databricks est vraiment bon dans ce qu'il fait. Parfois, il faut un certain temps pour que le cluster soit opérationnel. L'interface utilisateur est parfois lente. Cela peut être ennuyeux lorsque nous sommes pressés de terminer des tâches pour Salesforce. Les connecteurs Salesforce dans Databricks peuvent être un peu compliqués à utiliser. Ils doivent souvent être configurés correctement et ne fonctionnent pas comme nous l'attendons. Cela signifie que nous devons travailler lorsque nous essayons de résoudre des problèmes ou de surveiller les pipelines, dans Databricks pour Salesforce.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Il résout nos problèmes de performance et de fiabilité - en nous permettant d'extraire, de transformer et de charger les données dans Salesforce, le tout en un seul endroit sans ADF. Ce flux de travail unifié a réduit notre temps d'exécution de 1 heure à 10 minutes, nous offrant une exécution des tâches plus rapide et des mises à jour des données Salesforce à temps. Avec des fonctionnalités de delta lake comme les transactions ACID et le voyage dans le temps, nos données sont plus précises et plus faciles à récupérer en cas de problème.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que Databricks a pu améliorer considérablement votre flux de travail en réduisant le temps d'exécution. C'est formidable de savoir que Delta Lake a été utile pour maintenir l'exactitude des données et offrir des options de récupération plus faciles. Nous comprenons vos préoccupations concernant le temps de configuration du cluster et la vitesse de l'interface utilisateur, ainsi que les défis liés aux connecteurs Salesforce. Nous apprécions vos commentaires et les partagerons avec notre équipe pour de futures améliorations.

  ### 36. Databricks : Riche en fonctionnalités, convivial et tout en un seul endroit

**Rating:** 5.0/5.0 stars

**Reviewed by:** Sivabalan A. | Technical Lead - Data Engineering, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Parmi les différentes plateformes avec lesquelles j'ai travaillé, Databricks se distingue comme un environnement véritablement cohérent. Il ressemble moins à un ensemble de fonctionnalités déconnectées et plus à un espace de travail unifié—un espace qui peut évoluer en même temps que les équipes qui l'utilisent. L'interface est suffisamment intuitive pour abaisser la barrière d'entrée, tout en offrant la profondeur et la puissance nécessaires pour l'ingénierie intensive.

L'une de ses plus grandes forces est la façon dont elle consolide le cycle de vie des données. En réunissant l'ingénierie, la science des données et l'analyse SQL sous un même toit, elle aide à dissoudre les silos qui mènent souvent à la « dérive des données » et à la mauvaise communication entre les départements. En pratique, elle simplifie également l'infrastructure sous-jacente, remplaçant une douzaine d'outils spécialisés (et parfois contradictoires) par une source unique et plus claire de vérité.

Au-delà du simple « maintien de la propreté », la plateforme brille également en matière de transparence collaborative. Avec des notebooks et des expériences partagés en temps réel, l'écart entre une idée de données initiale et un modèle prêt pour la production peut être considérablement raccourci. De plus, son engagement envers les standards ouverts comme Delta Lake signifie que vous n'êtes pas enfermé dans une boîte noire propriétaire—vous construisez sur une base qui s'aligne avec la direction de la communauté des données au sens large. Dans l'ensemble, elle trouve un équilibre rare : une enveloppe polie et conviviale autour de certains des moteurs de calcul distribués les plus puissants disponibles aujourd'hui.

**Que n’aimez-vous pas à propos de Databricks?**

La décomposition de la « Grande Tâche »

Lorsque Genie traite un grand volume de données, il finit souvent par envoyer une énorme quantité de JSON au navigateur afin qu'il puisse rendre ces tableaux et visualisations.

Surcharge de mémoire : Les navigateurs (et surtout Chrome) peuvent être de véritables gouffres de mémoire. Si une réponse de Genie inclut un ensemble de résultats très volumineux ou un plan d'exécution massif, l'utilisation de la RAM peut augmenter rapidement, ce qui peut entraîner ce fameux blocage « Ne répond pas ».

Le décalage du « DOM » : Chaque ligne dans un tableau et chaque ligne de code devient un élément que le navigateur doit suivre. Lorsque vous faites défiler ou tapez, le navigateur doit repeindre des milliers de ces éléments. Lorsque la tâche est trop grande, le thread principal du navigateur peut être occupé à rendre, et votre frappe commence à donner l'impression d'être en retard de quelques secondes.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Vous avez saisi la raison principale pour laquelle Databricks séduit tant d'équipes de données : ils réduisent la « taxe d'intégration ». Dans la plupart des entreprises, vous pouvez facilement perdre environ 30 % de votre temps juste à déplacer des données entre l'outil de « stockage », l'outil de « traitement » et l'outil de « BI ».

Le tableau de bord AI/BI est un excellent exemple de ce changement plus large — d'une « collection d'outils » à une plateforme plus unifiée.

Ce qui a commencé comme une couche de visualisation basique a évolué en un système « AI Composé ». Voici comment il est devenu si utile :

L'intégration « Ask Genie » : Vous n'êtes plus limité à regarder un graphique statique. À partir de 2026, chaque tableau de bord publié inclut par défaut un bouton « Ask Genie ». Si un intervenant remarque un pic dans un graphique linéaire, il n'a pas besoin de vous appeler ; il peut faire un clic droit sur le graphique et demander : « Genie, pourquoi cela a-t-il chuté mardi ? » et il utilisera le mode Agent pour identifier le responsable.

Vitesse directe vers l'entrepôt : Parce qu'il vit à l'intérieur de Databricks, il n'est pas nécessaire d'« extraire » les données vers un serveur BI séparé. Il interroge les données là où elles se trouvent déjà (Unity Catalog), ce qui signifie que le tableau de bord reste aussi frais que votre dernière exécution ETL.

Rédaction assistée par l'IA : Vous pouvez construire des widgets entiers simplement en décrivant ce que vous voulez. Au lieu de déplacer des champs, vous pouvez taper, « Montrez-moi un graphique en entonnoir de notre conversion des ventes par région », et il génère le SQL et la visualisation pour vous.

Gouvernance approfondie : Puisqu'il est intégré, vos politiques de sécurité (sécurité au niveau des lignes, balises) suivent automatiquement les données. Vous n'avez pas besoin de recréer les autorisations dans un outil séparé comme Tableau ou Power BI.

**Official Response from Janelle Glover:**

> Merci d'avoir souligné les avantages de Databricks dans la réduction de la « taxe d'intégration » et la rationalisation du mouvement des données entre le stockage, le traitement et les outils de BI. Nous sommes ravis d'apprendre que le tableau de bord AI/BI et Genie ont été précieux pour offrir une vitesse directe vers l'entrepôt et une rédaction assistée par l'IA.

  ### 37. Code Genie Databricks - IA appliquée agentique pour le cycle de vie SDL de bout en bout

**Rating:** 4.5/5.0 stars

**Reviewed by:** Senthil K. | Senior Cloud Solution Architect - Accenture Data &amp; AI (Applied Intelligence), Entreprise (> 1000 employés)

**Reviewed Date:** October 03, 2023

**Qu'aimez-vous le plus à propos de Databricks?**

Code Génie

1) Code Génie a automatisé nos processus ETL, réduisant l'effort manuel et augmentant l'efficacité. Avec SDL d'Agentic, nous avons mis en œuvre des pipelines CI/CD pour des mises à jour et des déploiements plus rapides et transparents.

2) Code Génie a simplifié les mappages STTM complexes, améliorant la précision et la rapidité. Les mises à jour en temps réel d'Agentic ont assuré que les ajustements de mappage étaient effectués de manière dynamique pour s'aligner sur les données de transaction changeantes.

3) Nous avons défini des tests unitaires automatisés en utilisant SKILL.md, garantissant que les transformations de données sont validées avant le déploiement. Cela a réduit les erreurs et assuré la qualité des données, renforçant la confiance dans nos analyses.

4) En utilisant Skills.md, nous avons ajouté des extensions personnalisées à Code Génie, telles que l'intégration de données tierces pour des rapports enrichis. Cette agilité nous a permis de nous adapter rapidement aux besoins de l'entreprise et de fournir de nouvelles capacités.

5) SDL d'Agentic a permis le traitement des données en temps réel, fournissant des analyses immédiates pour la prise de décision. Nos équipes marketing et ventes agissent désormais sur des données fraîches instantanément, améliorant les temps de réponse et l'efficacité globale.

**Que n’aimez-vous pas à propos de Databricks?**

Espérons que cela pourra être amélioré dans la prochaine mise à jour -

Le débogage des problèmes dans des flux de travail complexes peut être chronophage en raison de la visibilité limitée sur les transformations de données intermédiaires.

Genie Code manque de mécanismes avancés de récupération d'erreurs, ce qui rend difficile la gestion des échecs dans les pipelines de données à grande échelle.

À mesure que le volume de données augmente, les performances de Genie Code peuvent se dégrader, nécessitant des ajustements manuels significatifs pour assurer un fonctionnement fluide à grande échelle.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

1) Traitement évolutif - Construit sur l'architecture basée sur Spark de Databricks, Genie Code gère et évolue efficacement le traitement de vastes ensembles de données, garantissant des performances même avec des volumes de données croissants.

2) Genie Code automatise les flux de travail ETL de bout en bout, de l'extraction des données à la transformation et au chargement, rationalisant les opérations de données et éliminant les tâches manuelles.

3) Collaboration en temps réel - Genie Code permet la collaboration en temps réel entre les équipes en utilisant des notebooks partagés, facilitant ainsi la construction et l'affinement collectif des flux de travail par les professionnels des données.

**Official Response from Aunalisa Arellano:**

> C'est formidable d'apprendre que la plateforme d'intelligence des données de Databricks vous aide avec une plateforme de lakehouse unifiée, l'orchestration des flux de travail, les intégrations et le partage de données. Nous nous engageons à fournir des solutions qui répondent à vos besoins commerciaux.

  ### 38. Plateforme unifiée de Databricks : SQL rapide, pipelines simplifiés et IA contextuelle

**Rating:** 5.0/5.0 stars

**Reviewed by:** Deeraj R. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

L'expérience de la plateforme unifiée est ce qui me maintient sur Databricks. Avoir des notebooks, des pipelines, des entrepôts SQL, du ML et de la gouvernance réunis en un seul endroit sous Unity Catalog signifie que je ne suis pas constamment en train de rassembler cinq outils différents juste pour accomplir mon travail.

Les Lakeflow Pipelines (anciennement DLT) rendent la construction de pipelines d'architecture médaillon simple, et le moteur Photon offre de réels gains de performance sur les charges de travail SQL sans nécessiter de changements de code. Les ajouts récents comme Genie Code et les agents en arrière-plan montrent également qu'ils prennent l'IA agentique au sérieux—cela ne ressemble pas à un copilote ajouté, car il peut réellement comprendre le contexte de vos données grâce à Unity Catalog. Le calcul sans serveur a également été une grande amélioration de la qualité de vie, car je n'ai plus à attendre le démarrage du cluster lorsque je veux simplement exécuter des requêtes rapides et ad hoc.

**Que n’aimez-vous pas à propos de Databricks?**

La gestion des coûts peut être délicate—les DBUs s'accumulent rapidement si vous ne faites pas attention à la taille des clusters et à l'auto-scalabilité des entrepôts. Le modèle de tarification n'est pas toujours transparent, surtout lorsque vous mélangez le calcul sans serveur et le calcul classique.

Unity Catalog est puissant, mais la configuration initiale et la migration depuis le HMS hérité peuvent être pénibles, en particulier pour les grandes organisations avec des années d'objets de métastore Hive existants. La documentation est généralement bonne, mais elle est parfois en retard par rapport aux nouvelles versions de fonctionnalités. De plus, l'interface utilisateur de l'espace de travail peut sembler lente par moments, surtout lorsque vous travaillez avec un grand nombre d'actifs.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Avant Databricks, notre pile de données était fragmentée — des outils séparés pour l'ETL, l'analytique, le ML et la gouvernance. Cela signifiait des changements de contexte constants, des données dupliquées et des lacunes dans la gouvernance. Databricks consolide tout cela en une seule plateforme de lakehouse. Delta Lake nous offre des transactions ACID fiables sur le data lake, Unity Catalog gère la traçabilité et le contrôle d'accès de manière globale, et les entrepôts SQL permettent à nos analystes de se servir eux-mêmes sans avoir besoin d'un produit d'entrepôt de données séparé. Cela a considérablement réduit notre temps de développement de pipeline et a fait de la gouvernance des données quelque chose que nous pouvons réellement appliquer de manière cohérente au lieu de simplement espérer le meilleur.

**Official Response from Janelle Glover:**

> Nous sommes ravis d'apprendre que vous appréciez l'expérience de la plateforme unifiée et que vous trouvez de la valeur dans Lakeflow Pipelines, le moteur Photon et le code Genie. Nous comprenons vos préoccupations concernant la gestion des coûts et la transparence des prix, ainsi que les défis liés à la configuration initiale et à l'interface utilisateur de l'espace de travail. Vos commentaires sont précieux et seront partagés avec notre équipe pour de futures améliorations.

  ### 39. Plateforme Databricks tout-en-un avec une gouvernance solide, des performances Spark rapides et Genie

**Rating:** 5.0/5.0 stars

**Reviewed by:** Sabareeswara S. | Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

La plateforme tout-en-un élimine la dispersion des outils. Unity Catalog vous offre la gouvernance, la traçabilité et la découvrabilité sans ajouter un catalogue séparé. L'interface utilisateur du notebook est épurée et permet d'itérer rapidement sur PySpark. Genie est la fonctionnalité IA remarquable : il transforme les tables organisées en interfaces en langage naturel pour les utilisateurs professionnels, et le SDK vous permet de le configurer de manière programmatique pour qu'il reste maintenable. DLT gère bien l'orchestration des pipelines. Les performances sur les charges de travail Spark sont solides, surtout avec Photon. Les intégrations avec Airflow, S3 et l'écosystème plus large sont simples. Pour le retour sur investissement, consolider ce qui nécessitait auparavant plusieurs outils en une seule plateforme s'amortit par la réduction de la complexité.

**Que n’aimez-vous pas à propos de Databricks?**

La tarification peut être difficile à prévoir. Les coûts de calcul augmentent rapidement si vous ne faites pas attention à la taille du cluster et à la sélection des SKU, et il n'est pas toujours évident de savoir quel niveau de charge de travail vous avez réellement besoin jusqu'à ce que vous voyiez la facture. L'IDE du notebook, bien que fonctionnel, est encore en retard par rapport à un véritable éditeur pour le refactoring, la navigation multi-fichiers et les flux de travail de révision de code.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

La consolidation des outils est la plus importante. Auparavant, vous auriez besoin de systèmes séparés pour l'ingestion, la transformation, l'entreposage, la gouvernance et le service, chacun avec sa propre courbe d'apprentissage, ses frais de maintenance et ses problèmes d'intégration. Databricks regroupe tout cela en une seule plateforme. Unity Catalog résout le problème de la gouvernance des données en vous offrant la traçabilité, le contrôle d'accès et la découvrabilité en un seul endroit au lieu de gérer les autorisations à travers des systèmes déconnectés.

**Official Response from Janelle Glover:**

> Merci de partager votre expérience positive avec Databricks ! Nous sommes ravis d'apprendre que vous trouvez Delta Live Tables, Unity Catalog et Genie bénéfiques. Nous apprécions également vos commentaires sur les prix et nous partagerons vos remarques avec notre équipe.

  ### 40. Databricks continue de réduire les frictions avec une gouvernance solide et des outils d'IA intuitifs

**Rating:** 4.5/5.0 stars

**Reviewed by:** Praveenkumar S. | Solutions Architect, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est la façon dont ses fonctionnalités ont constamment répondu aux besoins évolutifs des équipes d'ingénierie. Au fil des ans, je l'ai vu évoluer d'une plateforme de données solide à un espace de travail qui simplifie véritablement la manière dont nous construisons et gérons les solutions de données et d'IA. Unity Catalog a été l'une des plus grandes améliorations pour nous, avoir un seul endroit pour gérer les autorisations et la lignée a supprimé beaucoup d'étapes manuelles que nous devions gérer séparément à travers les systèmes. Genie AI et BI sont également devenus une partie de mon flux de travail régulier ; pouvoir générer du SQL ou explorer des ensembles de données à travers des conversations naturelles aide les équipes à obtenir des réponses plus rapidement, surtout lorsque nous sommes sous pression temporelle. La capacité Apps a ajouté une valeur inattendue en nous permettant de créer et de partager des outils internes simplifiés directement au sein de la plateforme, éliminant ainsi le besoin de mettre en place une infrastructure supplémentaire. Et avec Lakebase, nous avons pu prendre en charge davantage de cas d'utilisation de type transactionnel sans perdre la flexibilité d'un lac, ce qui a rendu certaines pipelines beaucoup plus faciles à maintenir. Dans l'ensemble, ces améliorations ont supprimé beaucoup de frictions du travail quotidien et ont fait de la plateforme quelque chose que j'apprécie vraiment utiliser alors qu'elle continue d'évoluer.

**Que n’aimez-vous pas à propos de Databricks?**

Ce que je n'aime pas chez Databricks, c'est que certaines des nouvelles expériences d'IA, en particulier Genie pour la génération de code, peuvent parfois sembler instables et peuvent perdre le contexte lors de sessions de développement plus longues. Cela perturbe mon flux de travail lorsque l'assistant ne peut pas conserver la logique antérieure ou maintenir la continuité à travers plusieurs itérations.

J'ai également remarqué un manque de connecteurs natifs pour certains systèmes d'entreprise comme DFS, les partages SMB ou les systèmes sources basés sur Windows, et des plateformes telles que DB2 sur AS/400, sur lesquelles de nombreux clients comptent encore. Même si Databricks continue d'étendre son écosystème, le manque de connectivité directe dans ces domaines signifie souvent que nous avons besoin de middleware supplémentaire ou de pipelines personnalisés pour combler le fossé.

Aucun de ces points n'est rédhibitoire, mais ce sont des domaines où l'expérience par ailleurs fluide de la plateforme peut encore sembler un peu incomplète.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks nous a aidés à relever plusieurs défis de longue date dans la gestion et la livraison des données et de l'IA. Avant d'adopter ses nouvelles capacités, nous faisions face à une gouvernance fragmentée, des ensembles de données dupliqués, et beaucoup d'efforts manuels pour maintenir les permissions et la traçabilité cohérentes à travers différents systèmes. Unity Catalog a amélioré cela en nous offrant un endroit unique pour gérer la sécurité et la propriété, ce qui a réduit la confusion entre les équipes et a nettement diminué le travail supplémentaire lors des audits.

Nous passions également beaucoup de temps à aider les équipes à explorer les données ou à rédiger des requêtes. Avec Genie AI et BI, elles peuvent désormais générer des SQL, des résumés et des insights visuels de manière plus autonome. En conséquence, le temps entre une question et une réponse utilisable s'est raccourci, surtout lorsque nous travaillons sous des cycles de livraison serrés.

Un autre point de douleur était la construction de petits outils internes autour de nos données. Mettre en place une infrastructure séparée ou des environnements d'hébergement créait des frais généraux inutiles. Avec Databricks Apps, nous pouvons désormais construire et partager ces outils au sein même de la plateforme, ce qui économise du temps de configuration et réduit la maintenance continue.

Enfin, nous avions du mal à supporter des charges de travail nécessitant à la fois la flexibilité d'un lac et la fiabilité d'une base de données. Lakebase a aidé à combler cet écart en permettant des opérations de type transactionnel directement sur nos données de lac, ce qui a simplifié plusieurs pipelines et réduit le nombre de systèmes que nous devons maintenir.

Dans l'ensemble, Databricks nous a fait passer de la gestion de multiples outils déconnectés à un environnement de travail plus unifié et prévisible. Ce changement a accéléré la livraison, réduit les frais généraux opérationnels et amélioré la clarté de nos flux de travail.

**Official Response from Janelle Glover:**

> Merci d'avoir partagé votre expérience positive avec Databricks ! Nous sommes ravis d'apprendre que notre plateforme a pu répondre de manière constante aux besoins évolutifs de vos équipes d'ingénierie et rationaliser vos solutions de données et d'IA. Nous apprécions vos commentaires sur Unity Catalog, Genie et Lakebase, et nous nous engageons à améliorer et à faire évoluer continuellement notre plateforme pour offrir une expérience utilisateur fluide et agréable.

  ### 41. Exploration rapide et gouvernée des données en libre-service avec Databricks Genie

**Rating:** 3.5/5.0 stars

**Reviewed by:** Yuvashree M. | Senior Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

En tant qu'ingénieur de données, j'utilise Databricks Genie pour interagir avec les données en langage naturel, tout en m'appuyant sur les mêmes tables gouvernées, métriques et modèles sémantiques que mon équipe a construits. Au lieu de plonger directement dans des notebooks SQL pour chaque demande exploratoire, moi ou les utilisateurs métier pouvons formuler des questions en langage simple et laisser Genie les traduire en requêtes structurées et conscientes du catalogue. Cela permet de maintenir l'auto-service rapide mais aussi sécurisé et gouverné.

**Que n’aimez-vous pas à propos de Databricks?**

Stabilité de l'ordinateur portable lors du multitâche
Mon ordinateur portable peut se bloquer ou devenir sensiblement lent lorsque je travaille avec plusieurs onglets et tableaux de bord Genie en même temps, surtout lors de requêtes plus lourdes ou de visualisations plus exigeantes. Cela nuit à l'expérience utilisateur globale et peut ralentir le développement itératif et l'analyse.

Latence avec des modèles de données complexes
Avec des schémas très larges ou des modèles sémantiques plus complexes, Genie sélectionne parfois des jointures sous-optimales ou un niveau de granularité trop large/étroit. En conséquence, je dois encore revoir le SQL généré et l'optimiser moi-même. En ce sens, il reste un assistant utile plutôt qu'un moteur de requête entièrement autonome.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Dans un projet récent, l'entreprise voulait comprendre une baisse de la valeur à vie du client (CLV) dans une région spécifique. Un chef de produit a utilisé Genie pour explorer les tendances de la CLV par région et cohorte, en excluant les remboursements, directement depuis un tableau de bord AI/BI. À partir de cette conversation, j'ai capturé la logique principale, l'ai intégrée dans un pipeline Delta Live Table, et l'ai planifiée comme une tâche récurrente. Cela a réduit les demandes ad hoc d'environ 30 à 40 % et a permis un accès continu en libre-service aux informations sur la CLV pendant que je me concentrais sur l'optimisation des performances et des règles de qualité des données.

Dans l'ensemble, Genie m'aide à dialoguer avec mes données en langage naturel, améliore la rapidité avec laquelle nous découvrons des insights, et soutient de meilleures pratiques de qualité des données—bien que travailler sur de nombreux onglets soutenus par Genie puisse solliciter le matériel local et parfois ralentir le flux de travail.

**Official Response from Janelle Glover:**

> Merci d'avoir partagé votre expérience positive avec l'utilisation de Genie pour l'exploration de données en libre-service. Nous nous excusons pour les problèmes de stabilité et de latence que vous avez remarqués. Notre équipe travaille activement pour résoudre ces préoccupations et améliorer l'expérience utilisateur.

  ### 42. Databricks Genie réussit les migrations de Unity Catalog avec des conseils contextuels

**Rating:** 4.0/5.0 stars

**Reviewed by:** Nandhini E. | Senior Data Architect, Entreprise (> 1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

La compréhension contextuelle de Unity Catalog par Databricks Genie est vraiment impressionnante. Lors de la gestion d'une migration UC complexe, en naviguant à travers des espaces de noms à trois niveaux, des chemins de volume, des modes de sécurité et une exécution SQL pilotée par des widgets, Genie a raisonné à travers les spécificités au lieu de se rabattre sur des réponses génériques. Cela parle vraiment le langage de la migration UC, ce qui réduit beaucoup les allers-retours et rend le dépannage plus direct. Dans l'ensemble, la plateforme est puissante pour gérer des travaux d'ingénierie de données à grande échelle à travers Python, Scala et des pipelines basés sur des notebooks, le tout en un seul endroit.

**Que n’aimez-vous pas à propos de Databricks?**

Ma plus grande frustration avec Genie est le manque de mémoire de session persistante. Sur un projet de migration de longue durée avec plus de 60 cas de test et plusieurs composants interconnectés, devoir rétablir le contexte à chaque session crée une véritable surcharge. Genie a également du mal avec le raisonnement inter-composants : il gère bien les notebooks individuels, mais le traçage des problèmes à travers plusieurs couches d'un cadre reste en grande partie un effort manuel. Parfois, les réponses semblent excessivement prudentes alors que ce qui est nécessaire, c'est une réponse plus directe et confiante.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Nous utilisons Databricks pour effectuer une migration complète du catalogue Unity pour un cadre d'ingestion automatisé de grande envergure, en quittant le Metastore Hive hérité tout en mettant à niveau l'environnement d'exécution. Databricks offre une plateforme unifiée où le travail de migration, les tests et la validation peuvent tous se dérouler au même endroit. Pendant les tests, Genie a particulièrement aidé à accélérer l'analyse des causes profondes, par exemple, il a identifié pourquoi un notebook d'extraction de données échouait à résoudre les références de table gérées par UC et a déterminé que l'ajout d'une instruction USE CATALOG était la solution. Ce type d'assistance ciblée et contextuelle réduit directement le temps d'investigation lors de migrations complexes.

**Official Response from Janelle Glover:**

> C'est fantastique d'entendre que Databricks aide à rationaliser vos processus de migration et de test de Unity Catalog. Nous apprécions votre exemple précis de la manière dont l'assistance contextuelle de Genie a directement réduit le temps d'investigation lors de migrations complexes. Nous apprécions également vos commentaires sur l'efficacité et prendrons vos remarques en considération pour de futures améliorations.

  ### 43. Conduire l'innovation en IA et en données avec une plateforme Databricks unifiée

**Rating:** 4.5/5.0 stars

**Reviewed by:** Ajay Kumar P. | Associate Consultant-Data Engineer, Petite entreprise (50 employés ou moins)

**Reviewed Date:** August 09, 2023

**Qu'aimez-vous le plus à propos de Databricks?**

J'utilise Databricks pour l'ETL, le reporting et l'IA, et j'apprécie qu'il fonctionne comme une solution unifiée pour tous les besoins en données et en IA. Cela facilite le suivi des données et la création d'informations, nous aidant à gérer les silos de données. J'aime le Unity Catalog car il nous aide à gérer et à gouverner les données en un seul endroit. J'aime aussi utiliser AgentBricks comme système multi-agents pour créer des applications d'IA à partir de PDF et d'autres documents. Je trouve Genie précieux car il permet aux utilisateurs professionnels de poser des questions en langage naturel et d'obtenir des réponses précises. La configuration initiale de Databricks a été très facile, rendant la transition fluide.

**Que n’aimez-vous pas à propos de Databricks?**

Je pense que le flux de travail pourrait être amélioré en ajoutant plusieurs déclencheurs au même pipeline, car pour l'instant, si nous voulons programmer le même pipeline plusieurs fois par jour, nous devons le cloner pour chaque fois.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

J'utilise Databricks pour éliminer les silos de données et faciliter le suivi des données ainsi que la création d'insights. Unity Catalog gère la gouvernance des données, AgentBricks développe des applications d'IA, et Genie fournit des réponses en utilisant le langage naturel sur des données structurées.

**Official Response from Aunalisa Arellano:**

> Nous sommes ravis d'apprendre que la plateforme Databricks Intelligence apporte de la valeur en résolvant les problèmes de gouvernance des données et en rationalisant la gestion des données. Vos commentaires sur le besoin de workflows plus robustes sont notés, et nous nous engageons à améliorer continuellement notre plateforme pour mieux répondre aux besoins des ingénieurs de données, des ingénieurs en apprentissage automatique et des analystes.

  ### 44. Le mode Agent de Genie Code a rendu notre migration vers Databricks rapide et précise.

**Rating:** 4.0/5.0 stars

**Reviewed by:** Dharun T. | Senior Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 26, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Genie Code (Agent Assistant Databricks) — Je travaille actuellement sur la migration des charges de travail existantes de ADF et SQLMI vers Databricks. Dans ce cadre, je dois convertir les procédures stockées et les flux de données ADF en notebooks Databricks. Au départ, nous avons refactorisé tout le code manuellement, mais une fois que le Mode Agent a été disponible en aperçu, nous avons essayé de l'utiliser pour convertir les procédures stockées et les flux de données en code PySpark Databricks. J'ai été impressionné par la précision : il a géré environ 90 % de la conversion de code sans erreurs, à part quelques ajustements de gestion de cas et similaires.

De plus, Lakeflow Connect m'a aidé à connecter plus facilement les données SharePoint et SFTP à Databricks.

**Que n’aimez-vous pas à propos de Databricks?**

Ce n'est pas un problème majeur, mais dans mon projet, le client nous a demandé de générer des descriptions de tables et de colonnes en utilisant l'IA dans Unity Catalog. Pour chaque environnement, ces descriptions varient, et j'ai environ 300 tables rien que dans la zone Bronze. Devoir cliquer sur chaque table et générer des descriptions IA une par une est très chronophage, et les résultats ne sont pas cohérents entre les environnements.

Ce serait beaucoup plus efficace si nous avions une option pour générer des descriptions au niveau du schéma, et s'il existait un schéma d'information ou des tables système qui stockaient les descriptions de tables et de colonnes en tant que métadonnées. De cette façon, nous pourrions facilement les répliquer entre les environnements. Dans certains cas, les clients ont également une documentation du système source que nous pourrions exploiter pour générer des descriptions de tables et de colonnes plus précises.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

L'un de mes principaux scénarios consistait à migrer toutes les procédures stockées existantes et les flux de données ADF vers des notebooks Databricks. Faire cela manuellement prenait plus de 6 heures pour compléter à la fois le développement et la validation. Plus tard, nous avons utilisé le mode Agent Preview et converti plus de 80 procédures stockées moyennes/complexes et plus de 20 flux de données ADF en notebooks Databricks. Cela a permis d'économiser plus de 100 heures, et cela a également généré des scripts de validation pour chaque table afin de finaliser les tests unitaires.

En dehors de l'Assistant Agent, nous avons également utilisé un volume externe. Auparavant, nous nous appuyions sur la bibliothèque Azure pour le traitement des fichiers dans le stockage ADLS, mais nous avons rencontré des problèmes de limitation de débit, nous ne pouvions pas traiter en parallèle, et parfois le travail s'arrêtait. Après avoir créé un volume externe pointant vers le conteneur ADLS requis, nous avons réalisé un traitement parallèle et des lectures et écritures plus rapides, au lieu d'utiliser du code Python personnalisé.

**Official Response from Janelle Glover:**

> Merci de partager votre expérience positive avec Genie et Lakeflow Connect dans Databricks ! Nous sommes ravis d'apprendre que cela a rendu votre processus de migration rapide et précis.

  ### 45. Databricks : une véritable plateforme unifiée d'analytique et d'IA qui améliore la vitesse et la fiabilité

**Rating:** 5.0/5.0 stars

**Reviewed by:** Amit D. | Data Architect, Entreprise (> 1000 employés)

**Reviewed Date:** March 26, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Ce que j'aime le plus chez Databricks, c'est qu'il a enfin réalisé ce que chaque ingénieur de données/professionnel des données souhaitait — une véritable plateforme unifiée d'analytique et d'IA. 
Je me souviens de devoir utiliser cinq outils différents juste pour obtenir un seul pipeline de l'ingestion au reporting. Databricks a tout regroupé dans un seul environnement, et cela a tout changé pour moi.
Delta Lake a été la première percée. Lorsqu'il est arrivé vers 2020, les transactions ACID et le voyage dans le temps ont immédiatement éliminé la douleur opérationnelle que nous considérions comme "normale". Si un travail corrompait une table, je pouvais revenir à une version précédente en quelques secondes au lieu de passer des heures à restaurer des sauvegardes. Cette fiabilité à elle seule a évité de multiples échecs en aval.
Avant l'existence de Delta, nos pipelines reposaient fortement sur des modèles de réécriture car il n'y avait pas de moyen fiable d'appliquer des mises à jour ou de gérer les données arrivant tardivement en toute sécurité. Les réécritures étaient lentes, coûteuses et risquées — surtout pour les grandes tables. Une seule défaillance lors de la réécriture pouvait laisser la table dans un état à moitié écrit et incohérent. Le traitement prenait plus de temps, les coûts de calcul augmentaient, et la récupération signifiait souvent reconstruire manuellement les partitions à partir de zéro.
Le retour sur investissement est devenu évident dès que nous avons utilisé Databricks de bout en bout. Parce qu'une seule plateforme gère l'ingestion → transformation → ML → BI → gouvernance, nous avons retiré des catégories entières d'outils hérités et réduit considérablement les frais d'exploitation.
Puis Genie est arrivé — et cela a véritablement transformé mon travail quotidien.
J'avais besoin d'un module PySpark pour les vérifications de qualité des données. Genie a généré toute la logique — vérifications de nullité, validation de schéma, agrégations — en quelques secondes. Au lieu de passer 30 minutes à écrire du code standard, j'ai passé 3 minutes à affiner la logique. Cela a déplacé mon attention de la syntaxe aux décisions.
Les intégrations sont un autre point fort. Connecter Databricks à S3, SQL Server, et surtout Power BI a été sans accroc. Publier des tables Delta directement dans des modèles BI a supprimé le besoin d'extractions fragiles et accéléré les actualisations. Unity Catalog a rendu le tout encore plus propre avec des permissions et une traçabilité cohérentes.
La performance est constamment forte quand cela compte — jointures lourdes, fonctions de fenêtre, pipelines multi-étapes, ou charges de travail en streaming. Le calcul sans serveur démarre instantanément, et les charges de travail évoluent de manière prévisible même sous pression.
Enfin, l'intégration m'a surpris. Des fonctionnalités comme le calcul sans serveur, les requêtes en langage naturel, les suggestions de code générées par l'IA, et les commentaires automatiques rendent Databricks intuitif même pour les ingénieurs nouveaux sur Spark. On a l'impression que la plateforme vous aide activement à apprendre.
En bref : Databricks me permet de travailler plus vite, de récupérer instantanément, de m'intégrer sans effort, et de monter en charge en toute confiance — tout en un seul endroit. C'est la rare plateforme qui améliore à la fois la vitesse et la fiabilité en même temps.

**Que n’aimez-vous pas à propos de Databricks?**

Ce que je déteste le plus chez Databricks, c'est la visibilité et la prévisibilité des coûts. Même en tant qu'ingénieur expérimenté, il peut être difficile d'obtenir une vue claire et en temps réel de ce qu'un workflow coûtera avant de l'exécuter. Photon vs. runtime standard, comportement d'autoscaling, opérations lourdes en shuffle, DBUs—ces éléments peuvent s'accumuler rapidement, et des surprises de coût peuvent survenir à moins de surveiller et d'ajuster activement tout. Une simple mauvaise configuration de pipeline peut discrètement doubler vos dépenses. Un autre défi est le rythme rapide des nouvelles fonctionnalités et des changements. Databricks innove incroyablement vite, ce qui est formidable, mais cela signifie aussi que les fonctionnalités peuvent arriver avant que la documentation, les meilleures pratiques ou les modèles de gouvernance ne soient pleinement matures. Parfois, la fonctionnalité se comporte différemment selon les runtimes ou les fournisseurs de cloud, et rester à jour nécessite un apprentissage continu et une refactorisation. Cela peut créer des frictions au sein de l'équipe et une dette technique.

En bref : Databricks est exceptionnel, mais le modèle de coût n'est pas toujours transparent, et le déploiement rapide des fonctionnalités peut introduire une complexité opérationnelle que les équipes doivent gérer activement.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Entreprise : Avant d'adopter Databricks, notre environnement d'analyse aérospatiale — en particulier autour de la surveillance de la santé des moteurs des clients — souffrait des mêmes défis que rencontrent de nombreuses organisations d'ingénierie traditionnelles. Nous avions plusieurs systèmes déconnectés gérant l'ingestion de télémétrie, le traitement des codes de défaut, l'analyse de flotte et la prédiction de maintenance. Les données des capteurs de moteur (FADEC, vibrations, thermiques, systèmes d'huile) arrivaient dans différents formats et nécessitaient un travail manuel important juste pour les normaliser. Les pipelines reposaient sur des réécritures complètes car notre configuration héritée ne supportait pas les mises à jour ou les données arrivant tardivement, ce qui rendait le traitement lent et coûteux. Nous avions du mal avec l'ingestion lente de la télémétrie des moteurs, des ensembles de données incohérents entre les équipes d'ingénierie, et des délais de traitement longs pour les modèles de détection d'anomalies.

Défi architectural : Avant d'utiliser Databricks, nous opérions dans un paysage de données fragmenté. Nous avions plusieurs systèmes, des couches de stockage déconnectées, et une forte dépendance aux tâches ETL basées sur la réécriture car notre ancienne plateforme de données ne supportait pas les mises à jour, les données arrivant tardivement, ou les garanties ACID. Cela signifiait que les pipelines étaient lents, sujets aux erreurs, et coûteux. Revenir en arrière sur des données incorrectes pouvait prendre des heures, et les incohérences de données entre les équipes étaient courantes. Nous avions du mal avec des systèmes cloisonnés, des pipelines lents, des données peu fiables, et des coûts opérationnels élevés.

Nous avions du mal avec les réécritures manuelles et les données incohérentes — mais maintenant nous pouvons utiliser Delta Lake avec ACID et le voyage dans le temps, ce qui a entraîné :

- Un retour en arrière instantané en cas de scénarios de corruption de données
- Un traitement incrémentiel fiable au lieu de réécritures complètes
- Des données cohérentes consommées par les équipes d'ingénierie, de BI, et de ML

Cela a réduit notre fenêtre de traitement du pipeline de télémétrie de plusieurs heures à moins de 30 minutes pour un lot quotidien à l'échelle de la flotte.

Nous avions du mal avec de multiples outils et des architectures dupliquées — mais maintenant nous avons un seul Lakehouse unifié, ce qui a entraîné :

- Une plateforme unique pour l'ingestion → transformation → ML → BI → gouvernance
- La suppression de 3 à 5 outils hérités (planificateurs ETL, extractions BI, infrastructure ML héritée)
- Une réduction des frais de maintenance et de licence

Nous avions du mal avec des cycles de développement lents — mais maintenant nous pouvons tirer parti de Genie pour l'ingénierie assistée par IA, ce qui a entraîné :

- Une création de modules PySpark 70 à 80 % plus rapide
- La génération automatique de vérifications de schéma, de vérifications de nullité, et de logique DQ
- Plus de temps passé sur les décisions, moins sur le code standard

Par exemple, un module de qualité des données qui prenait 30 minutes prend maintenant 2 à 3 minutes à échafauder.

Nous avions du mal avec une gouvernance incohérente — mais maintenant Unity Catalog nous donne une visibilité de bout en bout, ce qui a entraîné :

- Une intégration plus rapide (réduite de jours à minutes)
- Des permissions centralisées, des lignées, et des pistes d'audit
- Un alignement plus fort sur la conformité

Nous avions du mal à faire évoluer les pipelines et les charges de travail ML — mais maintenant nous utilisons le calcul distribué + Photon, ce qui a entraîné :

- Des jointures importantes et des opérations de fenêtre exécutées jusqu'à 10 fois plus rapidement
- Une gestion stable des ensembles de données à l'échelle du téraoctet
- Des performances prévisibles même sous des charges de travail lourdes

**Official Response from Janelle Glover:**

> Merci d'avoir partagé votre expérience positive avec Databricks ! Nous sommes ravis d'apprendre comment notre plateforme a amélioré votre flux de travail et a fourni fiabilité et rapidité. Nous apprécions vos commentaires et nous nous engageons à améliorer continuellement notre plateforme pour mieux répondre à vos besoins.

  ### 46. Quant à nous : Du concept de preuve ML aux applications de production sécurisées—Rapide, sans serveur, et bien gouverné

**Rating:** 4.0/5.0 stars

**Reviewed by:** Luis V. | Partner, Services d'information, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 24, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

J'aime personnellement utiliser cette application pour la capacité de transformer rapidement un concept de preuve de machine learning ou de génération augmentée par récupération en une application prête pour la production et sécurisée, en utilisant des frameworks Python familiers comme Streamlit, Gradio ou Dash. Fonctionner sur un calcul sans serveur signifie que notre équipe peut démontrer de la valeur aux clients rapidement sans attendre une provision d'infrastructure séparée.

Nous aimons également le catalogue Unity, qui fournit une gouvernance unifiée sur les données structurées et non structurées, les modèles de ML et les métriques commerciales. Des fonctionnalités comme la traçabilité automatisée simplifient les audits de conformité des clients.

**Que n’aimez-vous pas à propos de Databricks?**

Oui, il y a quelque chose à améliorer. Dans le streaming structuré et le chargeur automatique, un changement de schéma en cours d'exécution provoque l'échec de la requête et nécessite un redémarrage manuel. Pour les environnements de production des clients avec des SLA stricts, ces interruptions peuvent augmenter la charge de maintenance.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Pour les clients recherchant des analyses immédiates sans une migration coûteuse de plusieurs mois, nous déployons la fédération Lakehouse. Cette fonctionnalité aide notre équipe à interroger et à gouverner les données en place à travers des systèmes disparates directement depuis l'interface Databricks, accélérant ainsi la livraison d'informations stratégiques.

Nous exploitons également des outils intégrés comme la recherche vectorielle Mosaic AI pour construire des applications RAG, et utilisons les applications Databricks pour fournir des interfaces de prévisions interactives aux clients. Dans l'ensemble, c'est ainsi que nous utilisons ce logiciel.

**Official Response from Jess Darnell:**

> Nous sommes ravis d'apprendre que l'application a été essentielle pour démontrer rapidement de la valeur aux clients et fournir une gouvernance unifiée sur les données structurées et non structurées, les modèles de ML et les indicateurs commerciaux. Nous comprenons les défis liés aux changements de schéma en cours d'exécution et nous travaillerons à améliorer cet aspect pour une expérience plus fluide. C'est formidable d'entendre que Databricks aide votre équipe à déployer la fédération Lakehouse et à tirer parti des outils intégrés comme la recherche vectorielle Mosaic AI. Merci pour vos commentaires détaillés sur votre expérience et merci d'avoir choisi Databricks !

  ### 47. Une plateforme unifiée pour les charges de travail de données et d'IA évolutives

**Rating:** 4.5/5.0 stars

**Reviewed by:** Janani D. | Senior Data Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Databricks est formidable car il regroupe tout ce dont vous avez besoin pour les données et l'IA en un seul endroit. Au lieu de passer d'un outil à l'autre pour l'ingénierie des données, le nettoyage des données, l'analyse et l'apprentissage automatique, vous pouvez tout faire dans un seul environnement. Cela rend la vie beaucoup plus facile.

**Que n’aimez-vous pas à propos de Databricks?**

Databricks n'est pas convivial pour les débutants. Vous avez souvent besoin de solides compétences en ingénierie des données pour l'utiliser efficacement. Les avis soulignent que bien que Databricks soit extrêmement performant, c'est « un atelier haut de gamme » qui nécessite une expertise et n'est pas facile pour les équipes moins techniques. Databricks utilise des unités de coût (DBUs), que beaucoup de gens trouvent difficiles à estimer et à gérer. Même les avis d'experts soulignent que sa tarification est notoirement compliquée et peut cacher des coûts inattendus.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks utilise l'architecture Lakehouse pour combiner les forces des lacs de données et des entrepôts de données en une seule plateforme unifiée. Cela signifie que les données structurées et non structurées coexistent et sont prêtes pour l'analyse ou l'apprentissage automatique.

**Official Response from Janelle Glover:**

> Merci de partager comment l'architecture de Databricks vous bénéficie. Nous avons conçu notre plateforme pour répondre aux défis de la gestion des données structurées et non structurées, et c'est formidable d'entendre qu'elle a un impact positif sur vos flux de travail d'analyse et d'apprentissage automatique.

  ### 48. Les notebooks Databricks rendent la collaboration fluide entre Python, SQL et Scala.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Joseph F. | Cloud Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 25, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Les notebooks collaboratifs de Databricks sont vraiment utiles et me permettent de travailler dans n'importe quel langage dont j'ai besoin pour répondre efficacement à mes exigences. La capacité de mélanger Python, SQL et même Scala au sein d'un tableau de bord rend la collaboration et le travail d'équipe beaucoup plus fluides. J'apprécie également la facilité avec laquelle il s'intègre à d'autres outils et plateformes cloud, ce qui lui permet de s'adapter à mes flux de travail existants avec très peu de friction.

**Que n’aimez-vous pas à propos de Databricks?**

J'aime leur support client et les mises à jour fréquentes sont une grande raison pour laquelle c'est devenu mon préféré pour la gestion des données. J'apprécie également à quel point il s'intègre bien avec des outils externes comme Power BI pour le reporting, c'est vraiment bien.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Cela simplifie la collaboration entre les équipes et nous aide à travailler sur de grands ensembles de données sans avoir à nous soucier trop de l'infrastructure ou des frais généraux d'analyse. Les calculs et les rapports sont rapides, ce qui a amélioré nos cycles de développement et réduit les allers-retours entre les équipes d'ingénierie et d'analyse.

**Official Response from Janelle Glover:**

> C'est formidable d'entendre que Databricks simplifie la collaboration entre les équipes et améliore les cycles de développement pour vous. Nous nous efforçons de fournir une plateforme qui réduit les charges d'infrastructure et d'analytique, permettant ainsi aux équipes de se concentrer sur leurs objectifs principaux.

  ### 49. Excellent pour mettre à l'échelle les modèles d'apprentissage automatique, malgré la courbe d'apprentissage.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Lokesh S. | Senior Data Scientist, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 28, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

Nous sommes une entreprise technologique de taille moyenne, où je travaille en tant que Senior Data Scientist, et nous utilisons Databricks comme notre principale plateforme pour l'ingestion de données, ainsi que pour l'entraînement et le déploiement de modèles d'apprentissage automatique. Auparavant, nos data scientists et ingénieurs travaillaient dans des mondes séparés, partageant des scripts et des scripts entre eux, créant ainsi un énorme goulot d'étranglement. À ce stade, nous nettoyons nos énormes ensembles de données de manipulation, exécutons des pipelines PySpark avancés et enregistrons chaque expérience de modèle sur une seule plateforme basée sur le cloud. Ce que j'aime le plus chez Databricks, c'est qu'il unit véritablement toutes les équipes de données dans un seul espace de travail. C'est une excellente fonctionnalité des notebooks collaboratifs que vous pouvez utiliser simultanément par plusieurs membres de l'équipe qui pourront écrire du code en Python, SQL ou même R en même temps, rendant ainsi les revues par les pairs et le débogage beaucoup plus rapides. Le support intégré pour MLflow est également un avantage considérable pour mon travail. Tous mes paramètres d'expérience et les métriques de modèle sont automatiquement surveillés et je n'ai pas besoin de deviner pour savoir quelle version d'un modèle a le mieux fonctionné lors de l'entraînement. De plus, lorsque j'ai besoin de configurer un cluster de calcul massif, je peux le faire en quelques clics et cela me permet de me concentrer sur la modélisation de mes données plutôt que de me préoccuper des tâches DevOps, de la configuration de l'infrastructure, etc.

**Que n’aimez-vous pas à propos de Databricks?**

Mais le site n'est pas sans inconvénients. La courbe d'apprentissage abrupte, en particulier lors de l'intégration de nouveaux employés provenant d'un environnement Python local bien défini ou de panda, est la partie la plus difficile. Apprendre l'écosystème Spark et le calcul distribué demande beaucoup de temps et d'efforts. Parfois, il est difficile de comprendre les coûts de la structure tarifaire et vous pouvez finir par dépenser trop si vous n'êtes pas attentif. Comme le calcul est facturé en fonction de l'utilisation, chaque fois que vous laissez un grand cluster allumé par erreur, vous pourriez entamer votre budget mensuel et ce n'est certainement pas un tableau de bord simple. Enfin, l'interface utilisateur peut devenir quelque peu encombrée et lente lorsque vous avez un grand carnet avec des dizaines voire des centaines de sorties dans des cellules visuelles qui sont toutes affichées simultanément.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Dans les problèmes du monde réel résolus, Databricks vient de résoudre notre pipeline de déploiement de modèle ! Auparavant, il fallait des semaines de réécriture de code avec l'équipe d'ingénierie pour déplacer un modèle prédictif de désabonnement client de ma machine locale à un système de production. Je suis également récemment impliqué dans le développement et le déploiement d'un moteur de recommandation en temps réel que j'ai pu entraîner, surveiller et transmettre comme un point de terminaison entièrement développé aux ingénieurs en quelques jours à peine. Cela a essentiellement éliminé les griefs de "ça fonctionne sur ma machine". Nous avons considérablement réduit le temps de mise sur le marché pour les nouveaux produits de données et avons pu gérer des téraoctets de données clients sans surcharge et sans que notre infrastructure ne s'effondre.

**Official Response from Jess Darnell:**

> Thank you for sharing your experience with Databricks! We're glad to hear that it has transformed your data teams and provided a common platform for collaboration. We appreciate your feedback on the user-friendliness and cost control, and we are continuously working to improve in these areas. It's great to hear that Databricks has helped standardize runtime environments and removed silos among departments, leading to more efficient cross-functional teamwork.

  ### 50. Databricks améliore la productivité avec un espace de travail unifié et un développement assisté par l'IA.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Conseil | Marché intermédiaire (51-1000 employés)

**Reviewed Date:** May 27, 2026

**Qu'aimez-vous le plus à propos de Databricks?**

En tant qu'ADE, ce que j'aime le plus chez Databricks, c'est qu'il élimine les frictions liées à l'infrastructure, ce qui me permet de me concentrer uniquement sur la logique de l'ingénierie des données. J'apprécie également beaucoup l'espace de travail unifié : je peux écrire du PySpark pour l'extraction et la transformation des données, passer à SQL pour l'analyse exploratoire et examiner la lignée des données, tout cela dans un seul onglet de navigateur, ce qui est un énorme gain de productivité. De plus, les fonctionnalités d'IA intégrées ont été incroyablement utiles car elles me permettent de m'inquiéter moins de la syntaxe et de passer plus de temps sur la logique elle-même. Enfin, avec les intégrations transparentes via Lakehouse Federation et l'intégration simplifiée, mon travail est devenu beaucoup plus fluide.

**Que n’aimez-vous pas à propos de Databricks?**

Bien que la plateforme soit excellente pour le développement, le modèle de consommation DBU et la gestion des clusters peuvent sembler un peu intimidants à mon niveau. En tant que débutant, j'ai passé beaucoup de temps à tester différents morceaux de logique, et il était facile d'oublier de terminer le cluster polyvalent par la suite, ce qui a conduit à une consommation de crédits minime mais néanmoins inutile. Heureusement, l'auto-termination existe et a aidé à éviter la disparition des crédits. Néanmoins, un réglage d'auto-termination plus agressif ou une fonction de pause plus intelligente rendrait plus facile d'éviter toute perte de crédit dès le départ.

**Quels sont les problèmes que Databricks résout, et en quoi cela vous est-il bénéfique?**

Databricks aide à résoudre le cauchemar des environnements locaux qui ralentit souvent les ingénieurs juniors. En fournissant une architecture Lakebase prête à l'emploi, il me permet de pratiquer l'ingénierie des données à un niveau entreprise sans avoir besoin de se connecter à des VPN ou de gérer des configurations Docker complexes. Dans mon projet, il a pris en charge tout le flux : ingestion des données brutes, transformation et mise à disposition pour des requêtes analytiques. Cela profite également à mon équipe, car je peux intégrer de véritables pipelines de données beaucoup plus rapidement et commencer à contribuer plus tôt. En même temps, j'apprends à construire des workflows ETL prêts pour la production sans que mes collègues seniors aient à passer des heures à m'aider à résoudre les problèmes de mon environnement local Python/Spark. Un avantage inattendu a été la collaboration sans faille. Comme les notebooks sont basés sur le cloud et liés à l'espace de travail, partager mon projet avec des ingénieurs seniors pour des revues de code était aussi simple que d'envoyer un lien. De plus, la façon dont Databricks gère les métadonnées m'a fait réaliser tôt dans ma carrière l'importance de la gouvernance des données.

**Official Response from Jess Darnell:**

> We're glad to hear that Databricks has been such a productivity boost for you! The unified workspace and AI-assisted development are indeed powerful features that many of our users appreciate. We understand your concerns about the DBU consumption model and cluster management. We're constantly working to improve the user experience, and your feedback will be taken into consideration for future enhancements.


## Databricks Discussions
  - [Qu&#39;est-ce que Lakehouse dans Databricks ?](https://www.g2.com/fr/discussions/what-is-lakehouse-in-databricks) - 4 comments, 2 upvotes
  - [Quelles sont les fonctionnalités de Databricks ?](https://www.g2.com/fr/discussions/what-are-the-features-of-databricks) - 4 comments, 2 upvotes
  - [What does Databricks software do?](https://www.g2.com/fr/discussions/what-does-databricks-software-do) - 3 comments
  - [Qu&#39;est-ce que la plateforme d&#39;analytique unifiée de Databricks ?](https://www.g2.com/fr/discussions/what-is-databricks-unified-analytics-platform) - 3 comments

- [View Databricks pricing details and edition comparison](https://www.g2.com/fr/products/databricks/reviews?section=pricing&secure%5Bexpires_at%5D=2026-06-02+01%3A46%3A29+-0500&secure%5Bsession_id%5D=bdb5a5f5-c554-4fba-99c8-149e346c8d4e&secure%5Btoken%5D=5cd65f4380cb08d9cb568d0fa63079de39461fdc28564c9cfff5e012cdfe8549&format=llm_user)
## Databricks Integrations
  - [Agentforce 360 Platform (formerly Salesforce Platform)](https://www.g2.com/fr/products/agentforce-360-platform-formerly-salesforce-platform/reviews)
  - [Agentforce Sales (formerly Salesforce Sales Cloud)](https://www.g2.com/fr/products/agentforce-sales-formerly-salesforce-sales-cloud/reviews)
  - [Alation](https://www.g2.com/fr/products/alation/reviews)
  - [Amazon EC2](https://www.g2.com/fr/products/amazon-ec2/reviews)
  - [Amazon Redshift](https://www.g2.com/fr/products/amazon-redshift/reviews)
  - [Amazon Relational Database Service (RDS)](https://www.g2.com/fr/products/amazon-relational-database-service-rds/reviews)
  - [Anaplan](https://www.g2.com/fr/products/anaplan/reviews)
  - [Anomalo](https://www.g2.com/fr/products/anomalo/reviews)
  - [Apache Airflow](https://www.g2.com/fr/products/apache-airflow/reviews)
  - [Apache Kafka](https://www.g2.com/fr/products/apache-kafka/reviews)
  - [Apache NiFi](https://www.g2.com/fr/products/apache-nifi/reviews)
  - [Atlan](https://www.g2.com/fr/products/atlan/reviews)
  - [AWS Glue](https://www.g2.com/fr/products/aws-glue/reviews)
  - [AWS Lambda](https://www.g2.com/fr/products/aws-lambda/reviews)
  - [Azure Blob Storage](https://www.g2.com/fr/products/azure-blob-storage/reviews)
  - [Azure Databricks](https://www.g2.com/fr/products/azure-databricks/reviews)
  - [Azure Data Factory](https://www.g2.com/fr/products/azure-data-factory/reviews)
  - [Azure Data Lake Store](https://www.g2.com/fr/products/azure-data-lake-store/reviews)
  - [Azure Functions](https://www.g2.com/fr/products/azure-functions/reviews)
  - [Azure Logic Apps](https://www.g2.com/fr/products/azure-logic-apps/reviews)
  - [Azure OpenAI Service](https://www.g2.com/fr/products/azure-openai-service/reviews)
  - [Azure Pipelines](https://www.g2.com/fr/products/azure-pipelines/reviews)
  - [Azure Portal](https://www.g2.com/fr/products/azure-portal/reviews)
  - [Azure SQL Database](https://www.g2.com/fr/products/azure-sql-database/reviews)
  - [Claude Code](https://www.g2.com/fr/products/anthropic-claude-code/reviews)
  - [Confluent](https://www.g2.com/fr/products/confluent/reviews)
  - [Crunchbase](https://www.g2.com/fr/products/crunchbase/reviews)
  - [Customer.io](https://www.g2.com/fr/products/customer-io/reviews)
  - [Dash](https://www.g2.com/fr/products/dash-for-brands-ltd-dash/reviews)
  - [data.world](https://www.g2.com/fr/products/data-world/reviews)
  - [DAT iQ](https://www.g2.com/fr/products/dat-iq/reviews)
  - [dbt](https://www.g2.com/fr/products/dbt/reviews)
  - [DigitalOcean](https://www.g2.com/fr/products/digitalocean/reviews)
  - [Fivetran](https://www.g2.com/fr/products/fivetran/reviews)
  - [GEN TDS](https://www.g2.com/fr/products/gen-tds/reviews)
  - [Git](https://www.g2.com/fr/products/git/reviews)
  - [GitHub](https://www.g2.com/fr/products/github/reviews)
  - [GitLab](https://www.g2.com/fr/products/gitlab/reviews)
  - [Google Analytics](https://www.g2.com/fr/products/google-analytics/reviews)
  - [Google Cloud Run](https://www.g2.com/fr/products/google-cloud-run/reviews)
  - [HubSpot Marketing Hub](https://www.g2.com/fr/products/hubspot-marketing-hub/reviews)
  - [Immuta](https://www.g2.com/fr/products/immuta/reviews)
  - [JD Edwards World](https://www.g2.com/fr/products/jd-edwards-world/reviews)
  - [Microsoft Copilot Studio](https://www.g2.com/fr/products/microsoft-microsoft-copilot-studio/reviews)
  - [Microsoft Fabric](https://www.g2.com/fr/products/microsoft-fabric/reviews)
  - [Microsoft Power Apps](https://www.g2.com/fr/products/microsoft-power-apps/reviews)
  - [Microsoft Power Automate](https://www.g2.com/fr/products/microsoft-power-automate/reviews)
  - [Microsoft Power BI](https://www.g2.com/fr/products/microsoft-microsoft-power-bi/reviews)
  - [Microsoft SharePoint](https://www.g2.com/fr/products/microsoft-sharepoint/reviews)
  - [Microsoft SQL Server](https://www.g2.com/fr/products/microsoft-sql-server/reviews)
  - [Microsoft Teams](https://www.g2.com/fr/products/microsoft-teams/reviews)
  - [Monte Carlo](https://www.g2.com/fr/products/monte-carlo/reviews)
  - [MySQL](https://www.g2.com/fr/products/mysql/reviews)
  - [ObjectWay SpA](https://www.g2.com/fr/products/objectway-spa/reviews)
  - [Oracle Database](https://www.g2.com/fr/products/oracle-database/reviews)
  - [Pega Platform](https://www.g2.com/fr/products/pega-platform/reviews)
  - [PostgreSQL](https://www.g2.com/fr/products/postgresql/reviews)
  - [PowerBI Portal](https://www.g2.com/fr/products/powerbi-portal/reviews)
  - [Prophecy](https://www.g2.com/fr/products/prophecy-prophecy/reviews)
  - [Qualtrics Customer Experience](https://www.g2.com/fr/products/qualtrics-customer-experience/reviews)
  - [React Native](https://www.g2.com/fr/products/react-native/reviews)
  - [Salesforce Agentforce](https://www.g2.com/fr/products/salesforce-agentforce/reviews)
  - [SAP Ariba](https://www.g2.com/fr/products/sap-ariba/reviews)
  - [SAP ECC](https://www.g2.com/fr/products/sap-ecc/reviews)
  - [SAS Viya](https://www.g2.com/fr/products/sas-sas-viya/reviews)
  - [Seamless (formally Seamless.AI)](https://www.g2.com/fr/products/seamless-formally-seamless-ai/reviews)
  - [ServiceNow IT Service Management](https://www.g2.com/fr/products/servicenow-it-service-management/reviews)
  - [Sigma](https://www.g2.com/fr/products/sigma-computing-sigma/reviews)
  - [Sisense](https://www.g2.com/fr/products/sisense/reviews)
  - [SnapLogic Intelligent Integration Platform (IIP)](https://www.g2.com/fr/products/snaplogic-intelligent-integration-platform-iip/reviews)
  - [Snowflake](https://www.g2.com/fr/products/snowflake/reviews)
  - [Spark](https://www.g2.com/fr/products/apache-spark/reviews)
  - [Spark SQL](https://www.g2.com/fr/products/spark-sql/reviews)
  - [SplashBI](https://www.g2.com/fr/products/splashbi/reviews)
  - [Spotfire Analytics](https://www.g2.com/fr/products/spotfire-analytics/reviews)
  - [Tableau](https://www.g2.com/fr/products/tableau/reviews)
  - [ThoughtSpot](https://www.g2.com/fr/products/thoughtspot/reviews)
  - [Visual Studio Code](https://www.g2.com/fr/products/visual-studio-code/reviews)
  - [Workday HCM](https://www.g2.com/fr/products/workday-hcm/reviews)

## Databricks Features
**Rapports**
- Interface des rapports
- Étapes pour répondre
- Graphiques et tableaux
- Cartes de score
- Tableaux

**Administration**
- Modélisation des données
- Recommandations
- Gestion des flux de travail
- Tableaux de bord et visualisations

**management**
- Rapports
- Audit

**déploiement**
- Flexibilité linguistique
- Flexibilité du cadre
- Gestion des versions
- Facilité de déploiement
- Évolutivité

**Système**
- Ingestion de données et querelles

**Préparation des données**
- Connecteurs
- Gouvernance des données

**Gestion des données**
- Intégration des données
- Compression des données
- Qualité des données
- Analyse de données intégrée
- Machine Learning dans la base de données
- Analyse du lac de données

**management**
- Dictionnaire de données
- Réplication des données
- Langage de requête
- Modélisation des données
- Analyse du rendement

**management**
- Glossaire métier
- Découverte de données
- Profilage des données
- Rapports et visualisation
- Lignage des données

**déploiement**
- Flexibilité linguistique
- Flexibilité du cadre
- Gestion des versions
- Facilité de déploiement
- Évolutivité

**Gestion des données**
- Intégration des données
- Métadonnées
- Libre-service
- Flux de travail automatisés

**Évolutivité et performances - Infrastructure d’IA générative**
- Haute disponibilité
- Évolutivité de l’entraînement des modèles
- Vitesse d’inférence

**Personnalisation - Constructeurs d'agents IA**
- Configuration de la langue naturelle
- Personnalisation du ton
- Garde-fous de sécurité

**Agentic AI - Plateformes DataOps**
- Exécution autonome des tâches
- Planification en plusieurs étapes
- Intégration inter-systèmes
- Apprentissage adaptatif
- Prise de décision

**Gestion du trafic et performance - Passerelles IA**
- Limitation de débit sensible aux jetons
- Mise en cache sémantique
- Routage multi-modèle et solutions de secours

**Développement de modèles**
- Prise en charge linguistique
- Glissez et déposez
- Algorithmes prédéfinis
- Formation sur modèle

**base de données**
- Collecte de données en temps réel
- Répartition des données
- Lac de données

**Transformation des données**
- Analyse en temps réel
- Interrogation de données

**conformité**
- Conformité des données sensibles
- Formation et lignes directrices
- Application des politiques
- Surveillance de la conformité

**Fonctionnalité**
- Extraction
- Transformation
- chargement
- Automatisation
- Évolutivité

**management**
- Catalogage
- Surveillance
- Gouvernant
- Registre des modèles

**Développement de modèles**
- Ingénierie des fonctionnalités

**Modélisation et fusion des données**
- Interrogation de données
- Filtrage des données
- Fusion de données

**Intégration**
- Intégration IA / ML
- Intégration de l’outil BI
- Intégration du lac de données

**Entretien**
- Migration des données
- Sauvegarde et restauration
- Environnement multi-utilisateurs

**Sécurité**
- Contrôle d’accès
- Gestion des rôles
- Gestion de la conformité

**Opérations**
- Métriques
- Gestion de l’infrastructure
- Collaboration

**Analytics**
- Capacités d’analyse
- Visualisations Dasboard

**Coût et efficacité - Infrastructure d’IA générative**
- Coût par appel d’API
- Flexibilité de l’allocation des ressources
- Efficacité énergétique

**Fonctionnalité - Constructeurs d'agents IA**
- Support omnicanal
- Agent Branding
- Capacités de réponse proactive
- Escalade humaine transparente

**Gouvernance et Observabilité - Passerelles IA**
- Confidentialité des données
- Suivi des coûts
- Sécurité centralisée des clés API

**Services d’apprentissage automatique/profond**
- Vision par ordinateur
- Traitement du langage naturel
- Génération de langage naturel
- Réseaux de neurones artificiels

**Intégrations**
- Intégration Hadoop
- Intégration de Spark

**Qualité des données**
- Préparation des données
- Répartition des données
- Unification des données

**Services d’apprentissage automatique/profond**
- Compréhension du langage naturel
- Apprentissage profond

**déploiement**
- Sur site
- Nuage

**Sécurité**
- Cryptage des données
- Contrôle d’accès utilisateur

**Maintenance**
- Gestion de la qualité des données
- Gestion des politiques

**management**
- Catalogage
- Surveillance
- Gouvernant

**Suivi et gestion**
- Observabilité des données
- Capacités de test

**IA générative**
- Génération de texte
- Résumé du texte

**Intégration et extensibilité - Infrastructure d’IA générative**
- Prise en charge multicloud
- Intégration du pipeline de données
- Prise en charge et flexibilité de l’API

**Données et analyses - Constructeurs d'agents IA**
- Analytique & Rapport
- Conscience contextuelle
- Conformité à la protection des données

**déploiement**
- Service géré
- Application
- Évolutivité

**Plate-forme**
- Mise à l’échelle de la machine
- Préparation des données
- Intégration de Spark

**Connectivité**
- Intégration Hadoop
- Intégration de Spark
- Analyse multi-sources
- Lac de données

**Performance**
- Évolutivité

**Déploiement dans le cloud**
- Prise en charge du cloud hybride
- Capacités de migration vers le cloud

**IA générative**
- Génération de texte
- Résumé du texte

**IA générative**
- Génération de texte
- Résumé du texte

**Sécurité et conformité - Infrastructure d’IA générative**
- RGPD et conformité réglementaire
- Contrôle d’accès basé sur les rôles
- Cryptage des données

**Intégration - Constructeurs d'agents IA**
- Automatisation du flux de travail
- Utilisation de l'API
- Interopérabilité des plateformes
- Intégration des données CRM

**Agentic AI - Plateformes d'analyse**
- Exécution autonome des tâches
- Planification en plusieurs étapes
- Intégration inter-systèmes
- Apprentissage adaptatif
- Interaction en Langage Naturel
- Assistance proactive
- Prise de décision

**Libre-service**
- Champs calculés
- Filtrage des colonnes de données
- Découverte de données
- Rechercher
- Collaboration / Flux de travail
- Automodelage

**Traitement**
- Traitement dans le cloud
- Traitement de la charge de travail

**Opérations**
- Visualisation des données
- Flux de travail de données
- Découverte régie
- Analyse intégrée
- Cahiers

**Sécurité**
- Gouvernance des données
- Sécurité des données

**IA générative**
- Génération de texte
- Résumé du texte
- Synthèse de texte en image

**IA générative**
- Génération de texte
- Résumé du texte

**Facilité d’utilisation et prise en charge - Infrastructure d’IA générative**
- Qualité de la documentation
- Activité communautaire

**IA agentique - Gouvernance des données**
- Exécution autonome des tâches
- Planification en plusieurs étapes
- Intégration inter-systèmes
- Apprentissage adaptatif
- Interaction en Langage Naturel
- Prise de décision

**Déploiement et Intégration - Plateformes d'Analytique**
- Constructeur de tableau de bord sans code
- Planification et automatisation des rapports
- Analytique intégrée et marque blanche
- Connectivité de la source de données

**Analytique avancée**
- Analyse prédictive
- Visualisation des données
- Big Data Services

**IA générative**
- Génération de texte
- Résumé du texte

**Agentic AI - Plateformes de science des données et d'apprentissage automatique**
- Exécution autonome des tâches
- Planification en plusieurs étapes
- Intégration inter-systèmes
- Apprentissage adaptatif
- Interaction en Langage Naturel
- Assistance proactive
- Prise de décision

**Performance et évolutivité - Plateformes d'analyse**
- Gestion de grandes quantités de données et vitesse de requête
- Support utilisateur simultané

**Analytique Avancée & Modélisation - Plateformes d'Analytique**
- Modélisation et gouvernance des données
- Intégration de cahier et de script
- Modèles prédictifs et statistiques intégrés

**Capacités d'IA agentiques - Plateformes d'analyse**
- Informations et récits générés automatiquement
- Requêtes en langage naturel
- Surveillance proactive des indicateurs clés de performance et alertes
- Agents IA pour suivis analytiques

**Intelligence Personnalisée - Plateformes d'Analyse**
- Apprentissage comportemental pour le raffinement contextuel des requêtes
- Personnalisation des informations basée sur les rôles
- Analytique conversationnelle et basée sur des invites

**Rapports de construction**
- Transformation des données
- Modélisation des données
- Conception de rapports WYSIWYG
- API d’intégration

**Plate-forme**
- Assistance aux utilisateurs mobiles
- Personnalisation
- Gestion des utilisateurs, des rôles et des accès
- Internationalisation
- Bac à sable / Environnements de test
- Performance et fiabilité
- Étendue des applications des partenaires

## Top Databricks Alternatives
  - [Cloudera Data Platform](https://www.g2.com/fr/products/cloudera-cloudera-data-platform/reviews) - 4.1/5.0 (131 reviews)
  - [Snowflake](https://www.g2.com/fr/products/snowflake/reviews) - 4.6/5.0 (705 reviews)
  - [Teradata Vantage](https://www.g2.com/fr/products/teradata-teradata-vantage/reviews) - 4.3/5.0 (355 reviews)