Sparrow é uma biblioteca de código aberto em Python e um sistema de API para extrair dados estruturados de documentos usando Modelos de Linguagem de Visão (VLMs). Ele processa faturas, recibos, formulários, extratos bancários, tabelas e outros tipos de documentos para retornar dados estruturados em JSON. Além da extração de documentos, Sparrow suporta o processamento de instruções de texto personalizadas para qualquer tarefa de IA, incluindo análise de dados, sumarização, tomada de decisão e fluxos de trabalho gerais de processamento de texto.
Sparrow extrai texto e dados de imagens (PNG, JPG) e PDFs de várias páginas usando validação de esquema JSON para garantir a extração precisa de dados. O sistema pode processar documentos complexos, incluindo tabelas, formulários e relatórios financeiros de várias páginas. Além disso, ele lida com solicitações baseadas em instruções personalizadas, como operações aritméticas, análise de texto, sumarização de conteúdo e outras tarefas impulsionadas por IA sem exigir entrada de documentos.
A plataforma oferece suporte a múltiplos backends, incluindo MLX para Apple Silicon, Ollama, vLLM, PyTorch e Hugging Face Cloud GPU. Ela fornece endpoints de API RESTful para integração, uma interface web interativa para upload e processamento de documentos, uma interface de linha de comando para processamento em lote e inclui um painel de análise embutido com monitoramento de fluxo de trabalho.
Sparrow apresenta um sistema de pipeline plugável com Sparrow Parse para processamento de visão, Sparrow Instructor para processamento de instruções de texto e Sparrow Agents para fluxos de trabalho complexos. O sistema usa extração baseada em esquema com validação automática e oferece capacidade de processamento no dispositivo para privacidade de dados. A orquestração de fluxo de trabalho baseada em agentes inclui monitoramento visual alimentado por Prefect.
Os casos de uso comuns incluem processamento automatizado de faturas e recibos, análise de documentos financeiros, extração de dados de formulários, reconhecimento de estrutura de tabelas, processamento de instruções de IA personalizadas, análise de texto e sumarização, e fluxos de trabalho de processamento de documentos em várias etapas. Sparrow roda em Python 3.10+ e oferece opções de licenciamento de código aberto (GPL 3.0) e comercial.