GitHub - unclecode/crawl4ai: đŸ”„đŸ•·ïž Crawl4AI: Open-source LLM Friendly Web Crawler & Scrapper

crawl4ai Àr en öppen kÀllkods webcrawler och skrapa, designad för att förenkla dataextraktion för stora sprÄkmodeller (LLM) och AI-applikationer. Version 0.2.77, slÀppt den 2 augusti 2024, introducerar betydande förbÀttringar som bÀttre Docker-stöd, en officiell Docker Hub-bild, uppgraderad Selenium-integration och förmÄgan att generera textbeskrivningar för bilder. Verktyget erbjuder en rad funktioner, inklusive LLM-vÀnliga utdataformat (JSON, HTML, Markdown), samtidig crawling av flera URL:er, extraktion av media och lÀnkar, samt avancerade chunking- och extraktionsstrategier som kosinusklustring och LLM-baserad analys. crawl4ai Àr designad med fokus pÄ hastighet och parallell bearbetning, vilket demonstreras genom exempel för grundlÀggande crawling, strukturerad dataextraktion med OpenAI-modeller och exekvering av JavaScript med CSS-selektorer. Projektet Àr gratis, öppen kÀllkod under Apache 2.0-licensen och uppmuntrar bidrag frÄn communityn.