# Apache Nutch Reviews
**Vendor:** The Apache Software Foundation  
**Category:** [Frameworks Web Java](https://www.g2.com/pt/categories/java-web-frameworks)  
**Average Rating:** 4.0/5.0  
**Total Reviews:** 20
## About Apache Nutch
Apache Nutch é um projeto de software de rastreador web de código aberto, extensível e escalável. Nutch fornece interfaces extensíveis, como Parse, Index e ScoringFilter, para implementações personalizadas, por exemplo, Apache Tika para análise.




## Apache Nutch Reviews
  ### 1. Apache Nutch é Rockstar em termos de rastreamento de grandes volumes de dados.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Narendra A. | Senior Software Engineer, Empresa (> 1000 emp.)

**Reviewed Date:** August 17, 2020

**O que você mais gosta Apache Nutch?**

Quando usei o Apache Nutch, fiquei impressionado com a velocidade com que ele rastreia dados e as bibliotecas e estruturas de dados fornecidas para personalizar o rastreamento e a leitura dos dados no formato desejado. Eu estava rastreando todos os dados da IBM para obter insights e fazer análises de texto. O tipo de suporte que recebi dos fóruns também foi ótimo. Então, no geral, foi uma boa experiência usar o rastreador Apache Nutch.

**O que você não gosta Apache Nutch?**

O que eu não gostei foi o suporte de vídeo que ele oferece na Internet.

**Recomendações a outras pessoas considerando Apache Nutch:**

É agradável de usar e oferece muita flexibilidade.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Eu estava resolvendo o problema na minha organização para análise de dados. Onde automatizamos todo o processo de licitação com análise de texto.

  ### 2. Muito eficiente, mais rápido e ferramenta de código aberto para rastreador

**Rating:** 4.5/5.0 stars

**Reviewed by:** Jaydip L. | Senior Software Engineer, Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** September 02, 2020

**O que você mais gosta Apache Nutch?**

Código Aberto  
Escalável  
Técnicas de análise e indexação.  
Integração fácil com elastic search e solr.  
Diferentes plugins para analisar vários tipos de conteúdo.

**O que você não gosta Apache Nutch?**

Nada de mais na minha lista de desgostos porque realmente gostamos muito e atendeu às necessidades da nossa organização. Mas, com base na experiência, posso dizer alguns contras, como a necessidade de uma boa infraestrutura e o consumo de uma boa quantidade de memória e utilização de CPU. Também sentimos que, se o Nutch fornecesse um bom painel de controle e um tipo de painel administrativo, seria muito útil para nós.

**Recomendações a outras pessoas considerando Apache Nutch:**

Quando tivemos a necessidade de rastreamento, utilizamos diferentes ferramentas como StormCrawler, Scrapy, etc. Mas achamos esta ferramenta muito confiável e, o mais importante, de código aberto. Suas várias funcionalidades, como rastreamento automático, encontrar links internos para rastrear, analisar diferentes tipos de conteúdos, várias integrações, etc., nos levaram a optar por esta ferramenta e acredite, nunca nos arrependemos de usá-la. Melhor ferramenta de rastreamento.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Nossa necessidade de negócios é desenvolver um mecanismo de busca onde fornecemos uma lista de URLs para o nutch e ele rastreará todas essas URLs, bem como encontrará suas URLs internas e as rastreará também. Estávamos armazenando esses dados rastreados no banco de dados cassandra e, em seguida, havia o elastic search para atender à nossa consulta de busca. Isso estava funcionando perfeitamente e o nutch realmente nos ajudou a fornecer rastreamento com suas habilidades de analisar diferentes tipos de conteúdo e armazená-los.

  ### 3. Ferramenta de Rastreamento Web

**Rating:** 5.0/5.0 stars

**Reviewed by:** Sinem A. | Quality Assurance Test Engineer, Médio Porte (51-1000 emp.)

**Reviewed Date:** December 14, 2020

**O que você mais gosta Apache Nutch?**

Era uma ferramenta de código aberto à qual você pode adicionar seus próprios plugins. Você pode alterar seu próprio código como desejar. Era muito fácil de usar. Pode ser executado com diferentes ferramentas também.

**O que você não gosta Apache Nutch?**

Você deve saber qual versão do nutch é adequada para outras ferramentas com as quais você trabalha.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Eu o utilizei enquanto estava fazendo minha tese para rastrear páginas da web turcas para o meu algoritmo de mecanismo de busca aprimorado. Também o utilizei no trabalho em um projeto de mecanismo de busca turco.

  ### 4. Eu sou desenvolvedor de big data na KICS, UET Lahore, Paquistão.

**Rating:** 3.5/5.0 stars

**Reviewed by:** Naser A. | Research Officer, Médio Porte (51-1000 emp.)

**Reviewed Date:** August 19, 2020

**O que você mais gosta Apache Nutch?**

Tenho usado o Apache Nutch há 3 ou 4 anos, gosto dele como uma ferramenta de código aberto que pode rodar em um sistema com especificações normais e rastrear milhões de páginas.

**O que você não gosta Apache Nutch?**

* Eu não gosto do seu algoritmo de criação de sementes, ele cria clusters e depois entra em um loop para rastrear os mesmos sites quando já rastreou milhões de páginas.
* Sua configuração não é fácil.
* As automações de trabalho não são fornecidas.
* A documentação não é boa.
* O suporte não é bom.

**Recomendações a outras pessoas considerando Apache Nutch:**

Não é fácil nos primeiros dias, mas uma vez configurado, supera suas expectativas.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Eu busquei um grande número de sites que contêm linguagem específica para construir um mecanismo de busca local.

  ### 5. Nutch é uma ferramenta de raspagem leve que possui uma curva de aprendizado trivial em sua adoção.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Prafulla R. | Technical Architect, Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** December 04, 2020

**O que você mais gosta Apache Nutch?**

-Armazenamento de backend estável

**O que você não gosta Apache Nutch?**

O uso de Java o torna um pouco volumoso
É preciso ter cuidado com o tamanho do heap, caso contrário, erros de OOM são inevitáveis.

**Recomendações a outras pessoas considerando Apache Nutch:**

Esteja atento à configuração do tamanho do Heap no arquivo de configuração. Além disso, use o HBase como armazenamento de dados NoSQL para armazenar dados coletados.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Implementação de mecanismo de comparação de produtos de eCommerce.  
Nutch permite a coleta de dados de maneiras éticas.

  ### 6. para a profundidade

**Rating:** 4.5/5.0 stars

**Reviewed by:** Krishnan S. | Software Engineer, Médio Porte (51-1000 emp.)

**Reviewed Date:** December 05, 2020

**O que você mais gosta Apache Nutch?**

Crawl de URL é uma função excelente para ler o conteúdo. Nutch é uma ferramenta muito útil para ler o conteúdo no documento de várias profundidades.

**O que você não gosta Apache Nutch?**

Um pouco difícil personalizar a função de rastreamento.

**Recomendações a outras pessoas considerando Apache Nutch:**

Muito bom ferramenta para usar.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Preparou o conteúdo para o mecanismo de busca para uma página web estática.

  ### 7. Butch é um rastreador web de código aberto altamente escalável. Ele pode ser personalizado de acordo com os requisitos.

**Rating:** 4.0/5.0 stars

**Reviewed by:** Ruchika J. | Hadoop Developer, Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** August 18, 2020

**O que você mais gosta Apache Nutch?**

Plugins para indexação e pesquisa.  
Integração com solar e outras ferramentas.  
Funciona bem em clusters Hadoop também.

**O que você não gosta Apache Nutch?**

Falta de comunidade para discutir qualquer questão ou preocupação.  
Falta de documentos para a implementação e integração do nutch.

**Recomendações a outras pessoas considerando Apache Nutch:**

Para web crawling e mineração de dados, você pode facilmente implementar o nutch com outras tecnologias de big data.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Crawl the web: This means: Use a web in. The. data. The. based. The.. The.. The.. The. The... The..................................................., and..................,...................................................... is...................................................................................................................................................................... the.., and.......................................................................................................... placement.............................................................................................................................................................. a.....................................................ick...... -............................................................... across..............................................................................................., and..................................................... and the.........,..................... of............................. panel................. of................. are.......................................... and................................,.............................. can..................s..of..ize......... -................ the.................x.em........S..........................,...................... of...ionS.........kinkinkin and...S.?.... in...sinkin.........s.....s....... ofS. a............, and.)kinkin. in. isnyans. in,..s. in.ynya.s..........................s.ns.......s.......s.......... with.................. in..ly... in. of and. of........). of......[....... of. of.. in...ness. it.. innyaful. in......or............. in...nyakin. in..........kinkin.......kinkinnyakin in.. Canvas.. the in.................. ........... play.. tone..

  ### 8. Um ótimo rastreador da web para todas as necessidades de rastreamento

**Rating:** 4.5/5.0 stars

**Reviewed by:** Usama T. | Python Developer, Médio Porte (51-1000 emp.)

**Reviewed Date:** July 10, 2020

**O que você mais gosta Apache Nutch?**

Sua característica de rastrear a web completa com links de entrada e saída que a tornam um rastreamento contínuo.

**O que você não gosta Apache Nutch?**

Nós precisamos ter um conhecimento muito sólido de Apache Hadoop, Hbase, Zookeeper e configuração completa do ambiente. Nós temos que ser muito eficientes nisso para usar isso. Além disso, não podemos visualizar os dados do Hbase facilmente, o que também é muito difícil.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Estou trabalhando em um mecanismo de busca e, para isso, a coleta de dados é a necessidade básica que estou obtendo através do Apache Nutch. Posso coletar dados completos da web fornecendo alguns links e fazendo com que ele rastreie através de links de entrada e saída.

  ### 9. Nutch é um rastreador de código aberto confiável e maduro.

**Rating:** 3.5/5.0 stars

**Reviewed by:** Fred Z. | Founder, Empresa (> 1000 emp.)

**Reviewed Date:** August 19, 2020

**O que você mais gosta Apache Nutch?**

Eu implementei o Nutch várias vezes quando precisei configurar um rastreador rapidamente. É gratuito, simples, confiável, bem documentado e vem com uma integração OTS com o Apache Solr para busca.

**O que você não gosta Apache Nutch?**

O esquema de particionamento de diretório e arquivo para o rastreador pode ser um pouco confuso.

**Recomendações a outras pessoas considerando Apache Nutch:**

considere o Google Programmable Search Engine

**Que problemas é Apache Nutch E como isso está te beneficiando?**

É uma solução excelente se você precisar de um rastreador rápido, simples e gratuito.

  ### 10. Melhor para rastreamento da web

**Rating:** 5.0/5.0 stars

**Reviewed by:** Usuário Verificado em Farmacêuticos | Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** December 14, 2020

**O que você mais gosta Apache Nutch?**

Gosto da geração de índice padrão para rastreador

**O que você não gosta Apache Nutch?**

Quando trabalho com o sistema operacional Ubuntu, acho difícil configurar os caminhos dos diretórios.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Consegui integrar com sucesso o Apache Nutch aos ecossistemas Hadoop e Hive e definir os conteúdos baseados em regras nas páginas da web.

  ### 11. Realmente boa experiência usando o Apache Nutch. As capacidades de rastreamento são realmente boas.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Navom S. | Software Developer, Empresa (> 1000 emp.)

**Reviewed Date:** July 25, 2020

**O que você mais gosta Apache Nutch?**

As capacidades de rastreamento em múltiplas camadas são realmente boas. A extração de dados de páginas da web é notável.

**O que você não gosta Apache Nutch?**

Com base no MapReduce, portanto, mais lento. Adicionar personalizações incluía escrever plugins e construí-los, sem recurso para injeção de dependência.

**Recomendações a outras pessoas considerando Apache Nutch:**

A implementação baseada em map reduce na implementação anterior é mais lenta.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Rastreamento de páginas da web e sites do governo para obter informações sobre dados relacionados a mudanças geográficas.

  ### 12. Ferramenta abrangente para raspagem e rastreamento da web

**Rating:** 4.0/5.0 stars

**Reviewed by:** Usuário Verificado em Internet | Médio Porte (51-1000 emp.)

**Reviewed Date:** November 02, 2020

**O que você mais gosta Apache Nutch?**

Fornece uma lista detalhada de recursos, tags HTML, mapas do site

**O que você não gosta Apache Nutch?**

Não havia muita documentação na época em que eu estava usando, o que tornava difícil de usar.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Rastejamos os URLs do nosso domínio e obtivemos informações úteis e relevantes.

  ### 13. Poderoso, mas não recomendado

**Rating:** 1.5/5.0 stars

**Reviewed by:** Imtiaz S. | Senior Software Engineer, Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** July 10, 2020

**O que você mais gosta Apache Nutch?**

Pode rastrear quase todos os tipos de conteúdos.  
Excelente sistema de plugins.  
Suporta diferentes backends de armazenamento.

**O que você não gosta Apache Nutch?**

Difícil de dominar. Requer uma curva de conhecimento íngreme.

Documentação pobre. Muitas estão desatualizadas ou quebradas. 

Difícil de configurar para um sistema de produção.

**Recomendações a outras pessoas considerando Apache Nutch:**

Use o Apache Storm Crawler em vez disso.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Nós usamos o Apache Nutch para rastrear sites e indexá-los com o Solr.

  ### 14. Usei o Apache Nutch para um projeto de rastreamento

**Rating:** 3.0/5.0 stars

**Reviewed by:** Usuário Verificado em Software de Computador | Empresa (> 1000 emp.)

**Reviewed Date:** July 10, 2020

**O que você mais gosta Apache Nutch?**

Usei o Apache Nutch para rastreamento usando o Cygwin, em passos fáceis ele conseguiu ser configurado e ajudou na coleta dos dados desejados.

**O que você não gosta Apache Nutch?**

Para ser honesto, não vi nenhuma desvantagem nisso.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Ajudou a configurar o banco de dados em etapas fáceis

  ### 15. Usando Apache Nutch para minha pesquisa de tese

**Rating:** 3.5/5.0 stars

**Reviewed by:** Usuário Verificado em Segurança de Redes e Computadores | Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** August 24, 2020

**O que você mais gosta Apache Nutch?**

O Apache Nutch é uma aplicação de fácil configuração que podemos usar para pesquisa.

**O que você não gosta Apache Nutch?**

É muito difícil encontrar artigos sobre o Apache Nutch.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Porque os recursos são muito difíceis de encontrar, principalmente sobre a configuração.

  ### 16. Revisão do Nutch

**Rating:** 4.0/5.0 stars

**Reviewed by:** Usuário Verificado em Educação Superior | Empresa (> 1000 emp.)

**Reviewed Date:** August 14, 2020

**O que você mais gosta Apache Nutch?**

Fácil de usar, suporte de uma grande comunidade de desenvolvedores

**O que você não gosta Apache Nutch?**

A interface padrão do motor de busca está muito desatualizada

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Construindo um mecanismo de busca em árabe

  ### 17. Ótimo rastreador da web

**Rating:** 4.0/5.0 stars

**Reviewed by:** Usuário Verificado em Jornais | Médio Porte (51-1000 emp.)

**Reviewed Date:** March 14, 2019

**O que você mais gosta Apache Nutch?**

O Nutch suporta a busca distribuída, e o suporte ao Hadoop pode ser uma busca, armazenamento e indexação distribuída em várias máquinas. Outro ponto atraente é que ele fornece uma estrutura de plug-ins, tornando a análise de todos os tipos de conteúdo da web, uma variedade de coleta de dados, consulta, clusterização, filtragem e outras funções fáceis de estender. É por causa dessa estrutura que o desenvolvimento de plug-ins do Nutch é muito fácil, e plug-ins de terceiros também surgem incessantemente, aumentando muito a função e a reputação do Nutch.

**O que você não gosta Apache Nutch?**

A capacidade de personalização do rastreador do Nutch é relativamente fraca. Se o desenvolvimento secundário do rastreador Nutch for realizado, o tempo de compilação e o tempo de depuração do rastreador levarão muito tempo.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Quantidades massivas de dados podem ser obtidas de sites específicos, que podem ser filtrados e analisados de forma direcionada, e os resultados desses dados podem ser claramente exibidos diante de nós através de um determinado serviço.

  ### 18. Incrivelmente Eficiente Rastreamento Web

**Rating:** 3.0/5.0 stars

**Reviewed by:** Justin C. | CTO, Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** March 19, 2019

**O que você mais gosta Apache Nutch?**

Eu amo como é fácil de configurar e executar e como ele funciona em escala. Armazenar no Hadoop é muito simples.

**O que você não gosta Apache Nutch?**

Não é tão fácil de usar quanto ferramentas como Scrapy.

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Distribuição em lote de rastreamento na web.

  ### 19. Bom rastreador de código aberto usado em produção na DARPA

**Rating:** 4.0/5.0 stars

**Reviewed by:** Usuário Verificado em Segurança de Redes e Computadores | Pequena Empresa (50 ou menos emp.)

**Reviewed Date:** January 31, 2019

**O que você mais gosta Apache Nutch?**

Suporte a proxy HTTP para que meu IP não seja bloqueado
Bom filtro de tamanho de arquivo com controle avançado da largura de banda da rede
Ouvi dizer que muitas grandes empresas e agências governamentais estão usando o Nutch em produção
O Nutch possui um redutor paralelo para aproveitar várias conexões de rede e CPU multi-core

**O que você não gosta Apache Nutch?**

Eu gostaria que o Nutch tivesse suporte embutido para limitação de taxa
Implementado em Java, que consome um pouco de memória

**Recomendações a outras pessoas considerando Apache Nutch:**

Use o redutor paralelo para diminuir o tempo de rastreamento

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Rastreie credenciais vazadas no github

  ### 20. Revisão do Apache Nutch pela Apache

**Rating:** 4.0/5.0 stars

**Reviewed by:** Usuário Verificado em Tecnologia da Informação e Serviços | Médio Porte (51-1000 emp.)

**Reviewed Date:** April 27, 2018

**O que você mais gosta Apache Nutch?**

A obtenção e a análise são feitas separadamente por padrão, o que reduz o risco de um erro corromper a etapa de obtenção e análise de um rastreamento com Nutch. * Os plugins foram reformulados como resultado direto da remoção da dependência legada do Lucene para indexação e busca. * O número de plugins para processar vários tipos de documentos enviados com o Nutch foi refinado. Os únicos plugins de análise enviados com o Nutch agora são Feed (RSS/Atom), HTML, Ext, JavaScript, SWF, Tika e ZIP. O Nutch tem plugins de pontuação há bastante tempo e tem suportado coisas como cronogramas de obtenção adaptativos, e todos os dados do Nutch estão em bancos de dados e assim por diante, que são interrogados através das ferramentas de linha de comando, Java, e agora há uma interface REST emergente e também trabalho para criar um cliente Python para isso também.

**O que você não gosta Apache Nutch?**

Nutch não precisa estar em modo batch. Então, digamos que, como administrador de rastreamento do Nutch, seu cliente lhe deu a seguinte tarefa: "Consiga material específico de domínio de um banco de dados como o NTIS" (NTIS; o Serviço Nacional de Informação Técnica, serve como o maior recurso central para informações científicas, técnicas, de engenharia e de negócios financiadas pelo governo disponíveis hoje). O que isso realmente significa é o seguinte:

**Que problemas é Apache Nutch E como isso está te beneficiando?**

Esta página fornece comentários e reflexões sobre a adaptação do Nutch não apenas para buscar conteúdo HTML dinâmico acionado por AJAX/JavaScript, mas também para interagir com esse conteúdo (potencialmente várias vezes) dentro de um cenário de busca.


## Apache Nutch Discussions
  - [How to make use of apache nuts more easy ?](https://www.g2.com/pt/discussions/34687-how-to-make-use-of-apache-nuts-more-easy) - 1 upvote
  - [How can i programatically create new crawl jobs and control them?](https://www.g2.com/pt/discussions/31744-how-can-i-programatically-create-new-crawl-jobs-and-control-them) - 1 upvote

- [View Apache Nutch pricing details and edition comparison](https://www.g2.com/pt/products/apache-nutch/reviews?section=pricing&secure%5Bexpires_at%5D=2026-05-13+09%3A37%3A05+-0500&secure%5Bsession_id%5D=1e7a1dbc-335d-4935-8057-cbd6a6322e61&secure%5Btoken%5D=89c546d6f5f89568a68357da5bc984dbc5bcbb344e9ad3134ac209e0a06d8a54&format=llm_user)


## Top Apache Nutch Alternatives
  - [spring.io](https://www.g2.com/pt/products/spring-io/reviews) - 4.5/5.0 (290 reviews)
  - [Apache Tika](https://www.g2.com/pt/products/apache-tika/reviews) - 4.7/5.0 (13 reviews)
  - [JHipster](https://www.g2.com/pt/products/jhipster/reviews) - 4.4/5.0 (83 reviews)

