Sparrow ist eine Open-Source-Python-Bibliothek und ein API-System zur Extraktion strukturierter Daten aus Dokumenten mithilfe von Vision Language Models (VLMs). Es verarbeitet Rechnungen, Quittungen, Formulare, Kontoauszüge, Tabellen und andere Dokumenttypen, um strukturierte JSON-Daten zurückzugeben. Über die Dokumentenextraktion hinaus unterstützt Sparrow die Verarbeitung benutzerdefinierter Textanweisungen für jede KI-Aufgabe, einschließlich Datenanalyse, Zusammenfassung, Entscheidungsfindung und allgemeiner Textverarbeitungs-Workflows.
Sparrow extrahiert Text und Daten aus Bildern (PNG, JPG) und mehrseitigen PDFs unter Verwendung der JSON-Schema-Validierung, um eine genaue Datenauswertung zu gewährleisten. Das System kann komplexe Dokumente wie Tabellen, Formulare und mehrseitige Finanzberichte verarbeiten. Darüber hinaus bearbeitet es benutzerdefinierte, anweisungsbasierte Anfragen wie arithmetische Operationen, Textanalysen, Inhaltszusammenfassungen und andere KI-gestützte Aufgaben, ohne dass ein Dokumenteneingang erforderlich ist.
Die Plattform bietet Unterstützung für mehrere Backends, darunter MLX für Apple Silicon, Ollama, vLLM, PyTorch und Hugging Face Cloud GPU. Sie bietet RESTful API-Endpunkte zur Integration, eine interaktive Weboberfläche für den Dokumenten-Upload und die Verarbeitung, eine Befehlszeilenschnittstelle für die Stapelverarbeitung und enthält ein integriertes Analyse-Dashboard mit Workflow-Überwachung.
Sparrow verfügt über ein steckbares Pipelinesystem mit Sparrow Parse für die Bildverarbeitung, Sparrow Instructor für die Textanweisungsverarbeitung und Sparrow Agents für komplexe Workflows. Das System verwendet eine schema-basierte Extraktion mit automatischer Validierung und bietet die Möglichkeit der Verarbeitung auf dem Gerät für den Datenschutz. Die agentenbasierte Workflow-Orchestrierung umfasst eine visuelle Überwachung, die von Prefect unterstützt wird.
Häufige Anwendungsfälle sind die automatisierte Verarbeitung von Rechnungen und Quittungen, die Analyse von Finanzdokumenten, die Extraktion von Formulardaten, die Erkennung von Tabellenstrukturen, die Verarbeitung benutzerdefinierter KI-Anweisungen, Textanalysen und -zusammenfassungen sowie mehrstufige Dokumentenverarbeitungs-Workflows. Sparrow läuft auf Python 3.10+ und bietet sowohl Open-Source- (GPL 3.0) als auch kommerzielle Lizenzierungsoptionen.