Gorzen Engineering bietet zwei Hauptproduktionsbereite Ingestionspipelines an: den Advanced Engine und Gorzen Ingestion.
Advanced Engine: Diese Pipeline ist für die Verarbeitung komplexer PDFs, Tabellen, OCR, Formeln konzipiert und erfordert hohe Präzision auf Unternehmensebene. Sie unterstützt optionale GPU-Beschleunigung und Cross-Encoder-Reranking für verbesserte Präzision. Der Advanced Engine konzentriert sich auf maximale Extraktionsgenauigkeit und Abrufpräzision und verwendet Technologien wie Docling 2.70+ und EasyOCR für Parsing- und OCR-Aufgaben.
Gorzen Ingestion: Diese Pipeline ist auf schnelle, cloud-first Bereitstellungen zugeschnitten und nutzt verwaltete APIs wie LangChain-Loader und GPT-4o Vision. Sie betont eine schnelle Bereitstellung mit geringem Betriebsaufwand.
Beide Pipelines teilen ein einheitliches Vektorrückgrat in Pinecone, das es ihnen ermöglicht, kompatible Datensätze in dieselbe Indexkonfiguration zu schreiben. Diese Einrichtung gewährleistet Interoperabilität und Skalierbarkeit über verschiedene Anwendungsfälle hinweg. Der Advanced Engine bietet deterministische Extraktion ohne KI-generierte Bildbeschreibungen und stellt sicher, dass Code und Formeln wortgetreu extrahiert werden.