
Para ser honesto, a melhor coisa sobre o Apache Arrow é o quão incrivelmente rápido ele torna o trabalho com grandes conjuntos de dados. O formato de memória em colunas acelera muito o processamento de dados, especialmente para análises e aprendizado de máquina. A facilidade de uso não é a melhor no início porque há uma curva de aprendizado, mas uma vez que você pega o jeito, o aumento de desempenho vale totalmente a pena.
Além disso, a facilidade de integração é sólida — funciona super bem com Pandas, Spark e Parquet, então mover dados entre sistemas é muito mais suave do que outros formatos. E como é compatível entre linguagens, você pode usá-lo em Python, Java, C++ e mais, sem se preocupar com conversões de formato irritantes.
Em termos de número de funcionalidades, ele está repleto de otimizações para lidar com dados na memória de forma super eficiente. Eu o uso o tempo todo e, honestamente, é meio que indispensável para processamento de dados de alto desempenho. A única desvantagem? O suporte ao cliente é principalmente baseado na comunidade, então às vezes você tem que procurar por respostas. Mas, no geral, a facilidade de implementação não é tão ruim, e uma vez configurado, é um divisor de águas para lidar com big data. Análise coletada por e hospedada no G2.com.
Honestamente, não é a coisa mais fácil de começar. A curva de aprendizado é meio íngreme, especialmente se você nunca lidou com armazenamento colunar antes. Configurá-lo pode ser frustrante, e a Facilidade de Implementação não é exatamente tranquila—leva muito tentativa e erro, especialmente ao tentar encaixá-lo em um pipeline existente.
Além disso, a documentação está meio espalhada. Algumas partes são ótimas, mas outras? Nem tanto. Às vezes você fica apenas adivinhando, o que faz o Suporte ao Cliente parecer quase inexistente, já que a maior parte da ajuda vem da comunidade de código aberto. Depurar pode ser um problema também—é tão otimizado que até mesmo uma pequena má configuração pode bagunçar o desempenho de maneiras difíceis de descobrir.
Dito isso, uma vez que você supera a luta inicial, o Número de Recursos e a Facilidade de Integração com ferramentas como Pandas, Spark e Parquet fazem valer totalmente a pena. Mas sim, não espere que seja super amigável para iniciantes—definitivamente leva algum tempo para se acostumar. Análise coletada por e hospedada no G2.com.
No G2, preferimos avaliações recentes e gostamos de fazer acompanhamento com os avaliadores. Eles podem não ter atualizado o texto da avaliação, mas atualizaram a avaliação.
Validado pelo LinkedIn
Avaliação orgânica. Esta avaliação foi escrita inteiramente sem convite ou incentivo do G2, de um vendedor ou de um afiliado.
Esta avaliação foi traduzida de English usando IA.

