Apache Nutch est un projet de logiciel de robot d'exploration web open source extensible et évolutif. Nutch fournit des interfaces extensibles telles que Parse, Index et ScoringFilter pour des implémentations personnalisées, par exemple Apache Tika pour l'analyse.