Os provedores de dados da web agregam dados de inúmeras fontes, como páginas da web, blogs, fóruns, etc., e fornecem esses dados em vários setores. Os dados estão prontamente disponíveis para serem consumidos pelos clientes através do uso de APIs que podem ser acessadas por uma taxa nominal. Os tipos de dados podem incluir feeds de notícias, blogs, fóruns e dados sob demanda publicamente disponíveis.
Os provedores de dados da web consomem dados de bilhões de páginas na web e têm a capacidade inerente de transformar esses dados não estruturados em dados estruturados em diferentes formatos conforme necessário pelo usuário.
Os provedores de dados da web ajudam a indexar a web e também podem criar um repositório ou banco de dados pronto para uso. Este banco de dados consiste em dados ao vivo e históricos, tornando-o extremamente útil para análise e inteligência de negócios. Finalmente, alguns provedores de dados da web suportam APIs, como APIs de busca, para retornar resultados que incluem notícias, conjuntos de dados sociais, fóruns, blogs, dados governamentais, etc.
Os provedores de dados da web são diferentes de software de extração de dados e serviços de extração de dados uma vez que os provedores de dados da web fornecem dados prontos com base em um repositório e também reestruturam, filtram e formatam os dados para uso imediato por um cliente, em vez de raspagem de dados ad hoc conforme solicitações do cliente. Além disso, em vários casos, provedores de raspagem de dados ou ferramentas de extração de dados geralmente usam provedores de dados da web para obter dados e fornecê-los aos seus clientes.
Para se qualificar para inclusão na categoria de Provedores de Dados da Web, um produto deve:
Fornecer dados em tempo real de bilhões de páginas da web para garantir baixa latência
Fornecer um repositório de dados pesquisável para usuários de dados
Transformar dados não estruturados em dados estruturados que podem ser acessados em vários formatos, como JSON, XML, etc.