# Apache Nutch Reviews
**Vendor:** The Apache Software Foundation  
**Category:** [Cadres Web Java](https://www.g2.com/fr/categories/java-web-frameworks)  
**Average Rating:** 4.0/5.0  
**Total Reviews:** 20
## About Apache Nutch
Apache Nutch est un projet de logiciel de robot d&#39;exploration web open source extensible et évolutif. Nutch fournit des interfaces extensibles telles que Parse, Index et ScoringFilter pour des implémentations personnalisées, par exemple Apache Tika pour l&#39;analyse.




## Apache Nutch Reviews
  ### 1. Apache Nutch est une rockstar en termes de collecte de grandes quantités de données.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Narendra A. | Senior Software Engineer, Entreprise (> 1000 employés)

**Reviewed Date:** August 17, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Quand j'ai utilisé Apache Nutch, j'ai été étonné par la vitesse à laquelle il explore les données et par les bibliothèques et structures de données fournies pour personnaliser votre exploration et lire les données dans le format souhaité. J'explorais toutes les données d'IBM pour obtenir des insights et faire de l'analyse de texte dessus. Le type de soutien que j'ai reçu des forums était également excellent. Donc, dans l'ensemble, c'était une belle expérience d'utiliser le crawler Apache Nutch.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Ce que je n'aimais pas, c'était le support vidéo qu'il fournit sur Internet.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

C'est agréable à utiliser et offre beaucoup de flexibilité.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Je résolvais le problème dans mon organisation pour l'analyse de données. Où nous automatisons tout le processus d'enchères avec l'analyse de texte.

  ### 2. Très efficace, plus rapide et outil open source pour crawler

**Rating:** 4.5/5.0 stars

**Reviewed by:** Jaydip L. | Senior Software Engineer, Petite entreprise (50 employés ou moins)

**Reviewed Date:** September 02, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Source ouverte  
Évolutif  
Techniques d'analyse et d'indexation.  
Intégration facile avec elastic search et solr.  
Différents plugins pour analyser divers types de contenu.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Pas grand-chose dans ma liste de désagréments car nous l'avons vraiment beaucoup apprécié et cela a répondu à nos besoins organisationnels. Mais d'après l'expérience, je peux dire quelques inconvénients comme le fait qu'il nécessite une bonne infrastructure en place et consomme une bonne quantité de mémoire et d'utilisation du processeur. Nous pensons également que si Nutch fournissait un bon tableau de bord et une sorte de panneau d'administration, cela nous serait très utile.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Lorsque nous avions besoin de crawling, nous avons utilisé différents outils comme StormCrawler, Scrapy, etc. Mais nous avons trouvé cet outil très fiable et surtout open source. Ses diverses fonctionnalités comme le crawling automatique, la recherche de liens internes à explorer, l'analyse de différents types de contenus, diverses intégrations, etc., nous ont convaincus d'opter pour cet outil et croyez-moi, nous n'avons jamais regretté de l'avoir utilisé. Meilleur outil de crawling.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Notre besoin commercial est de développer un moteur de recherche où nous fournissons une liste d'URL à Nutch et il explorera toutes ces URL ainsi que trouvera ses URL internes et les explorera également. Nous stockions ces données explorées dans la base de données Cassandra et ensuite il y avait Elasticsearch en place pour répondre à notre requête de recherche. Cela fonctionnait parfaitement et Nutch nous a vraiment aidés à fournir l'exploration avec leurs capacités à analyser différents types de contenu et à les stocker.

  ### 3. Outil de collecte de données sur le web

**Rating:** 5.0/5.0 stars

**Reviewed by:** Sinem A. | Quality Assurance Test Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** December 14, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

C'était un outil open source auquel vous pouvez ajouter vos propres plugins. Vous pouvez modifier son code comme vous le souhaitez. C'était très facile à utiliser. Il peut également être exécuté avec différents outils.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Vous devez savoir quelle version de nutch est compatible avec les autres outils avec lesquels vous travaillez.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Je l'ai utilisé pendant que je faisais ma thèse pour explorer des pages web turques pour mon algorithme de moteur de recherche amélioré. Je l'ai également utilisé au travail dans un projet de moteur de recherche turc.

  ### 4. Je suis développeur de big data chez KICS, UET Lahore, Pakistan.

**Rating:** 3.5/5.0 stars

**Reviewed by:** Naser A. | Research Officer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** August 19, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

J'utilise Apache Nutch depuis 3 ou 4 ans, je l'aime comme un outil open source qui peut fonctionner sur un système avec des spécifications normales et explorer des millions de pages.

**Que n’aimez-vous pas à propos de Apache Nutch?**

* Je n'aime pas son algorithme de création de graines, il crée des clusters puis entre dans une boucle pour explorer les mêmes sites web lorsqu'il a exploré des millions de pages.
* Sa configuration n'est pas facile.
* Les automatisations de tâches ne sont pas fournies.
* La documentation n'est pas bonne.
* Le support n'est pas bon.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Pas facile au début, mais une fois que vous l'avez mis en place, cela dépasse vos attentes.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

J'ai récupéré un grand nombre de sites web qui contiennent un langage spécifique pour construire un moteur de recherche local.

  ### 5. Nutch est un outil de scraping léger qui a une courbe d'apprentissage triviale dans son adoption.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Prafulla R. | Technical Architect, Petite entreprise (50 employés ou moins)

**Reviewed Date:** December 04, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

-Backend store stable

**Que n’aimez-vous pas à propos de Apache Nutch?**

L'utilisation de Java le rend un peu encombrant. On doit être prudent avec la taille du tas, sinon les erreurs OOM sont inévitables.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Soyez attentif à la configuration de la taille du tas dans le fichier de configuration. Utilisez également HBase comme magasin de données NoSQL pour stocker les données collectées.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Mise en œuvre d'un moteur de comparaison de produits eCommerce.  
Nutch permet l'exploration de données de manière éthique.

  ### 6. à la profondeur

**Rating:** 4.5/5.0 stars

**Reviewed by:** Krishnan S. | Software Engineer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** December 05, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

L'exploration d'URL est une fonction excellente pour lire le contenu. Nutch est un outil très utile pour lire le contenu dans le document de diverses profondeurs.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Un peu difficile de personnaliser la fonction de crawl.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Très bel outil à utiliser.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

le contenu pour le moteur de recherche pour une page web statique.

  ### 7. Butch est un robot d'exploration web open source hautement évolutif. Il peut être personnalisé selon les besoins.

**Rating:** 4.0/5.0 stars

**Reviewed by:** Ruchika J. | Hadoop Developer, Petite entreprise (50 employés ou moins)

**Reviewed Date:** August 18, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Plugins pour l'indexation et la recherche.  
Intégration avec Solar et d'autres outils.  
Il fonctionne également bien dans les clusters Hadoop.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Manque de communauté pour discuter de tout problème ou préoccupation.  
Manque de documents pour la mise en œuvre et l'intégration de nutch.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Pour le web crawling et l'exploration de données, vous pouvez facilement intégrer nutch avec d'autres technologies de big data.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Extraire et analyser les données XML à partir des URL. Apache Tika utilisé pour l'analyse, indexé et filtré les données de Solar et créé un outil SEO et un outil PPC. J'ai obtenu des matériaux spécifiques au domaine mais il n'a pas de mode par lots. Il fonctionne bien sur les clusters.

  ### 8. Un excellent robot d'exploration pour tous les besoins d'exploration

**Rating:** 4.5/5.0 stars

**Reviewed by:** Usama T. | Python Developer, Marché intermédiaire (51-1000 employés)

**Reviewed Date:** July 10, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Sa fonctionnalité de parcourir le web complet avec des liens entrants et sortants qui le rendent capable de parcourir indéfiniment.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Nous devons avoir une connaissance très approfondie d'Apache Hadoop, Hbase, Zookeeper, et de la configuration complète de l'environnement. Nous devons être très efficaces dans son utilisation. De plus, nous ne pouvons pas visualiser facilement les données Hbase, ce qui est également très difficile.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Je travaille sur un moteur de recherche et, pour cela, le crawling est le besoin fondamental que j'obtiens grâce à Apache Nutch. Je peux explorer l'ensemble des données web en fournissant quelques liens et en le faisant explorer à travers les liens entrants et sortants.

  ### 9. Nutch est un robot d'exploration open source fiable et mature.

**Rating:** 3.5/5.0 stars

**Reviewed by:** Fred Z. | Founder, Entreprise (> 1000 employés)

**Reviewed Date:** August 19, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

J'ai déployé Nutch plusieurs fois lorsque j'avais besoin de mettre en place rapidement un crawler. Il est gratuit, simple, fiable, bien documenté, et est fourni avec une intégration OTS avec Apache Solr pour la recherche.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Le schéma de partitionnement des répertoires et des fichiers pour le robot d'exploration peut être un peu déroutant.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

considérer Google Programmable Search Engine

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

C'est une excellente solution si vous avez besoin d'un crawler rapide, simple et gratuit.

  ### 10. Meilleur pour le web crawling

**Rating:** 5.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Pharmaceutique | Petite entreprise (50 employés ou moins)

**Reviewed Date:** December 14, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

J'aime la génération d'index par défaut pour le robot d'exploration.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Lorsque je travaille avec le système d'exploitation Ubuntu, je trouve difficile de définir les chemins de répertoire.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

J'ai réussi à intégrer Apache Nutch aux écosystèmes Hadoop et Hive et à définir les contenus basés sur des règles dans les pages web.

  ### 11. Vraiment bonne expérience en utilisant Apache Nutch. Les capacités de crawl sont vraiment bonnes.

**Rating:** 5.0/5.0 stars

**Reviewed by:** Navom S. | Software Developer, Entreprise (> 1000 employés)

**Reviewed Date:** July 25, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Les capacités de crawl en profondeur multiple sont vraiment bonnes. L'extraction de données à partir de pages web est remarquable.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Basé sur MapReduce, donc plus lent. L'ajout de personnalisations comprenait l'écriture de plugins et leur construction, aucune fonctionnalité pour l'injection de dépendances.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

La mise en œuvre basée sur MapReduce dans la mise en œuvre précédente est plus lente.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Exploration des pages web et des sites gouvernementaux pour obtenir un aperçu des données liées au changement géographique.

  ### 12. Outil complet pour le web scraping et le crawling

**Rating:** 4.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Internet | Marché intermédiaire (51-1000 employés)

**Reviewed Date:** November 02, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Fournit une liste détaillée des fonctionnalités, des balises HTML, des plans de site

**Que n’aimez-vous pas à propos de Apache Nutch?**

Il n'y avait pas beaucoup de documentation au moment où je l'utilisais, ce qui le rendait difficile à utiliser.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

J'ai exploré les URL de notre domaine et obtenu des informations utiles et pertinentes.

  ### 13. Puissant mais non recommandé

**Rating:** 1.5/5.0 stars

**Reviewed by:** Imtiaz S. | Senior Software Engineer, Petite entreprise (50 employés ou moins)

**Reviewed Date:** July 10, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Facile à utiliser.  
Peut explorer presque tous les types de contenus.  
Excellent système de plugins.  
Prend en charge différents systèmes de stockage.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Difficile à maîtriser. Nécessite une courbe de connaissance raide.

Documentation médiocre. Beaucoup sont obsolètes ou cassées. 

Difficile à configurer pour un système de production.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Utilisez Apache Storm Crawler à la place.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Nous avons utilisé Apache Nutch pour explorer des sites web et les indexer avec Solr.

  ### 14. Utilisé Apache Nutch pour un projet de crawl

**Rating:** 3.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Logiciels informatiques | Entreprise (> 1000 employés)

**Reviewed Date:** July 10, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

J'ai utilisé Apache Nutch pour le crawling en utilisant Cygwin, en quelques étapes simples, il a été configuré et a aidé à collecter les données souhaitées.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Je n'ai vu aucun inconvénient à cela, pour être honnête.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Cela a aidé à configurer la base de données en étapes simples.

  ### 15. Utilisation d'Apache Nutch pour ma recherche de thèse

**Rating:** 3.5/5.0 stars

**Reviewed by:** Utilisateur vérifié à Sécurité informatique et réseau | Petite entreprise (50 employés ou moins)

**Reviewed Date:** August 24, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Apache Nutch est une application de configuration facile que nous pouvons utiliser pour la recherche.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Il est très difficile de trouver un article sur Apache Nutch.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Parce que les ressources sont très difficiles à trouver, surtout en ce qui concerne la configuration.

  ### 16. Examen de Nutch

**Rating:** 4.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Enseignement supérieur | Entreprise (> 1000 employés)

**Reviewed Date:** August 14, 2020

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Facile à utiliser, support d'une grande communauté de développeurs

**Que n’aimez-vous pas à propos de Apache Nutch?**

L'interface par défaut du moteur de recherche est très obsolète.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Création d'un moteur de recherche arabe

  ### 17. Superbe robot d'exploration web

**Rating:** 4.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Journaux | Marché intermédiaire (51-1000 employés)

**Reviewed Date:** March 14, 2019

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Nutch prend en charge la récupération distribuée, et le support Hadoop peut être une récupération, un stockage et un indexage distribués sur plusieurs machines. Un autre point attractif est qu'il offre un cadre de plug-in, ce qui permet de rendre le parsing de tout type de contenu web, une variété de collecte de données, de requêtes, de clustering, de filtrage et d'autres fonctions facilement extensibles. C'est grâce à ce cadre que le développement de plug-ins Nutch est très facile, et que les plug-ins tiers émergent sans cesse, améliorant grandement la fonction de Nutch et sa réputation.

**Que n’aimez-vous pas à propos de Apache Nutch?**

La capacité de personnalisation du robot d'exploration de Nutch est relativement faible. Si le développement secondaire du robot d'exploration Nutch est effectué, le temps de compilation et le temps de débogage du robot d'exploration prendront beaucoup de temps.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

D'énormes quantités de données peuvent être obtenues à partir de sites web spécifiques, qui peuvent être filtrées et analysées de manière ciblée, et les résultats de ces données peuvent être clairement affichés devant nous grâce à un certain service.

  ### 18. Incroyablement performant pour le crawling web

**Rating:** 3.0/5.0 stars

**Reviewed by:** Justin C. | CTO, Petite entreprise (50 employés ou moins)

**Reviewed Date:** March 19, 2019

**Qu'aimez-vous le plus à propos de Apache Nutch?**

J'aime la facilité avec laquelle il est possible de le configurer et de l'exécuter, ainsi que ses performances à grande échelle. Le stockage dans Hadoop est un jeu d'enfant.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Pas aussi facile à utiliser que des outils comme Scrapy.

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Récupération de données web par lots distribuée.

  ### 19. Bon robot d'exploration open source utilisé en production chez DARPA

**Rating:** 4.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Sécurité informatique et réseau | Petite entreprise (50 employés ou moins)

**Reviewed Date:** January 31, 2019

**Qu'aimez-vous le plus à propos de Apache Nutch?**

Support de proxy HTTP pour que mon IP ne soit pas bloquée
Filtre de taille de fichier pratique avec contrôle avancé de la bande passante réseau
J'ai entendu dire que de nombreuses grandes entreprises et agences gouvernementales utilisent Nutch en production
Nutch a un réducteur parallèle pour utiliser plusieurs connexions réseau et un processeur multi-cœur

**Que n’aimez-vous pas à propos de Apache Nutch?**

Je souhaite que Nutch ait un support intégré pour la limitation de débit. Implémenté en Java, ce qui consomme un peu de mémoire.

**Recommandations à d’autres personnes envisageant Apache Nutch:**

Utilisez un réducteur parallèle pour diminuer le temps de crawl

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Explorez les identifiants divulgués sur GitHub

  ### 20. Apache Nutch par Apache Review

**Rating:** 4.0/5.0 stars

**Reviewed by:** Utilisateur vérifié à Technologie de l'information et services | Marché intermédiaire (51-1000 employés)

**Reviewed Date:** April 27, 2018

**Qu'aimez-vous le plus à propos de Apache Nutch?**

La récupération et l'analyse sont effectuées séparément par défaut, ce qui réduit le risque qu'une erreur corrompe l'étape de récupération et d'analyse d'un crawl avec Nutch.
* Les plugins ont été remaniés suite à la suppression de la dépendance héritée de Lucene pour l'indexation et la recherche.
* Le nombre de plugins pour le traitement de divers types de documents livrés avec Nutch a été affiné.
Les seuls plugins d'analyse livrés avec Nutch sont désormais Feed (RSS/Atom), HTML, Ext, JavaScript, SWF, Tika et ZIP.
Nutch dispose de plugins de notation depuis un certain temps, et a pris en charge des éléments tels que les calendriers de récupération adaptatifs, et toutes les données de Nutch sont dans des bases de données et ainsi de suite qui sont interrogées via les outils en ligne de commande, Java, et maintenant il y a une interface REST émergente et également un travail pour créer un client Python pour cela aussi.

**Que n’aimez-vous pas à propos de Apache Nutch?**

Nutch n'a pas besoin d'être en mode batch. Disons donc qu'en tant qu'administrateur de crawl Nutch, votre client vous a chargé de la tâche suivante : « Obtenez-moi du matériel spécifique à un domaine à partir d'une base de données telle que NTIS » (NTIS ; le National Technical Information Service, sert de plus grande ressource centrale pour les informations scientifiques, techniques, d'ingénierie et commerciales financées par le gouvernement disponibles aujourd'hui). Ce que cela signifie vraiment est le suivant :

**Quels sont les problèmes que Apache Nutch résout, et en quoi cela vous est-il bénéfique?**

Cette page fournit des commentaires et des réflexions sur l'adaptation de Nutch non seulement pour récupérer du contenu HTML dynamique piloté par AJAX/JavaScript, mais aussi pour interagir avec ce contenu (potentiellement plusieurs fois) dans un scénario de récupération.


## Apache Nutch Discussions
  - [How to make use of apache nuts more easy ?](https://www.g2.com/fr/discussions/34687-how-to-make-use-of-apache-nuts-more-easy) - 1 upvote
  - [How can i programatically create new crawl jobs and control them?](https://www.g2.com/fr/discussions/31744-how-can-i-programatically-create-new-crawl-jobs-and-control-them) - 1 upvote

- [View Apache Nutch pricing details and edition comparison](https://www.g2.com/fr/products/apache-nutch/reviews?section=pricing&secure%5Bexpires_at%5D=2026-05-17+17%3A23%3A44+-0500&secure%5Bsession_id%5D=21421e84-adbc-4344-9733-d55d694d982e&secure%5Btoken%5D=0882ca72ca71547aa85c080fb6427a02b1aab8971177737233e239d64527dbc2&format=llm_user)


## Top Apache Nutch Alternatives
  - [spring.io](https://www.g2.com/fr/products/spring-io/reviews) - 4.5/5.0 (290 reviews)
  - [Apache Tika](https://www.g2.com/fr/products/apache-tika/reviews) - 4.7/5.0 (13 reviews)
  - [JHipster](https://www.g2.com/fr/products/jhipster/reviews) - 4.4/5.0 (83 reviews)

