Apache Nutch é um projeto de software de rastreador web de código aberto, extensível e escalável. Nutch fornece interfaces extensíveis, como Parse, Index e ScoringFilter, para implementações personalizadas, por exemplo, Apache Tika para análise.
Currently we are using apache nutch as standalone Crawler that need manual configuration and scheduling of crawls. If we need programatically create new crawl jobs (using rest api). Is there any easy to use library available?
Com mais de 3 milhões de avaliações, podemos fornecer os detalhes específicos que ajudam você a tomar uma decisão informada de compra de software para o seu negócio. Encontrar o produto certo é importante, deixe-nos ajudar.