Apache Nutch es un proyecto de software de rastreador web de código abierto extensible y escalable. Nutch proporciona interfaces extensibles como Parse, Index y ScoringFilter para implementaciones personalizadas, por ejemplo, Apache Tika para el análisis.