fastCRW è un'API open-source per il web scraping, crawling, ricerca ed estrazione dati distribuita come un singolo binario Rust. Espone un'API HTTP /v1 compatibile con il formato di richiesta e risposta di Firecrawl, e un endpoint di ricerca compatibile con il formato di risposta di Tavily, permettendo ai client SDK esistenti di connettersi cambiando solo l'URL di base.
Il prodotto offre quattro endpoint principali. Scrape recupera un singolo URL e restituisce la pagina come markdown strutturato insieme a metadati, screenshot opzionali, HTML grezzo e grafici di collegamento. Crawl attraversa un intero sito o un sottoinsieme di percorsi, supporta la scoperta della sitemap, le regole di robots.txt, la deduplicazione degli URL canonici e trasmette i risultati man mano che le pagine vengono completate. Search accetta una query in linguaggio naturale e restituisce risultati web classificati con il contenuto completo della pagina già convertito in markdown nella stessa risposta. Extract recupera campi strutturati da uno o più URL utilizzando uno schema JSON o un prompt in linguaggio naturale. Map restituisce il grafo degli URL di un sito senza recuperare le singole pagine.
Il binario è scritto in Rust e distribuito come un'immagine Docker da 8 MB. La memoria residente inattiva è di circa 6,6 MB. Su un benchmark pubblico di 1.000 URL, la latenza mediana delle richieste è di 710 ms e la media è di 833 ms. Il rendering JavaScript è incluso per le pagine che lo richiedono, e un percorso di recupero statico viene utilizzato automaticamente quando l'esecuzione di JavaScript non è necessaria.
fastCRW è disponibile in due modalità di distribuzione. Un servizio cloud gestito offre un livello gratuito di 500 crediti al mese e livelli a pagamento per volumi più alti. Il codice sorgente completo è anche pubblicato sotto la licenza AGPL-3.0 su GitHub e può essere auto-ospitato su qualsiasi infrastruttura senza costi per richiesta. Entrambe le modalità condividono lo stesso binario e set di funzionalità.
Sono disponibili SDK client ufficiali per Python e Node.js, insieme a un'interfaccia a riga di comando. Esistono integrazioni per LangChain, LlamaIndex, CrewAI, n8n e Dify. I pacchetti di distribuzione sono disponibili tramite Homebrew, apt e Docker.
I casi d'uso tipici includono pipeline di generazione aumentata dal recupero, agenti LLM autonomi, monitoraggio dell'intelligence competitiva, flussi di lavoro di arricchimento dei lead e costruzione di dataset per l'addestramento e il fine-tuning dei modelli.