
Honnêtement, la meilleure chose à propos d'Apache Arrow est à quel point il rend le travail avec de grands ensembles de données incroyablement rapide. Le format de mémoire en colonnes accélère énormément le traitement des données, surtout pour l'analytique et l'apprentissage automatique. La facilité d'utilisation n'est pas la meilleure au début car il y a une certaine courbe d'apprentissage, mais une fois que vous avez pris le coup, l'amélioration des performances en vaut vraiment la peine.
De plus, la facilité d'intégration est solide—il fonctionne super bien avec Pandas, Spark et Parquet, donc le transfert de données entre les systèmes est bien plus fluide que d'autres formats. Et comme il est compatible entre plusieurs langages, vous pouvez l'utiliser en Python, Java, C++, et plus encore sans vous soucier des conversions de format ennuyeuses.
En termes de nombre de fonctionnalités, il est rempli d'une tonne d'optimisations pour gérer les données en mémoire de manière super efficace. Je l'utilise tout le temps, et honnêtement, c'est un peu un incontournable pour le traitement de données haute performance. Le seul inconvénient ? Le support client est principalement basé sur la communauté, donc parfois vous devez chercher un peu pour trouver des réponses. Mais dans l'ensemble, la facilité de mise en œuvre n'est pas trop mauvaise, et une fois qu'il est configuré, c'est un véritable atout pour gérer les grandes données. Avis collecté par et hébergé sur G2.com.
Honnêtement, ce n'est pas la chose la plus facile à commencer. La courbe d'apprentissage est assez raide, surtout si vous n'avez jamais traité de stockage en colonnes auparavant. Le configurer peut être frustrant, et la facilité de mise en œuvre n'est pas exactement fluide—cela demande beaucoup d'essais et d'erreurs, surtout lorsqu'il s'agit de l'intégrer dans un pipeline existant.
De plus, la documentation est un peu dispersée. Certaines parties sont excellentes, mais d'autres ? Pas tellement. Parfois, vous êtes juste laissé à deviner, ce qui donne l'impression que le support client est presque inexistant puisque la plupart de l'aide vient de la communauté open-source. Le débogage peut aussi être un casse-tête—c'est tellement optimisé qu'une petite mauvaise configuration peut perturber les performances de manière difficile à comprendre.
Cela dit, une fois que vous avez surmonté les difficultés initiales, le nombre de fonctionnalités et la facilité d'intégration avec des outils comme Pandas, Spark et Parquet en valent vraiment la peine. Mais oui, ne vous attendez pas à ce que ce soit super convivial pour les débutants—cela prend certainement du temps pour s'y habituer. Avis collecté par et hébergé sur G2.com.
Chez G2, nous préférons les avis récents et nous aimons suivre les évaluateurs. Ils peuvent ne pas avoir mis à jour leur texte d'avis, mais ont mis à jour leur avis.
Validé via LinkedIn
Avis organique. Cet avis a été rédigé entièrement sans invitation ni incitation de la part de G2, d'un vendeur ou d'un affilié.
Cet avis a été traduit de English à l'aide de l'IA.

