网站采集工具firecrawl

参考

反正就是一个很牛逼的网站爬取工具，支持纯JS网站，也就是现在流行的VUE等没有html的网站，原来是集成了一个无头chrome，等页面渲染了才爬取。

特性

整站爬取
单个页面爬取
纯JS网站爬取
提取为LLM支持的markdown格式，当然了，直接爬取HTML是基本操作
只抓取main页面，排除

相关文档和参考地址

官方帮助：https://docs.firecrawl.dev/introduction
网上的资料很多是V0版本的，但是现在firecrawl已经升级到V版本啦，而且v0版本将在2025年4月1日下线：https://docs.firecrawl.dev/v1-welcome
github源代码地址：https://github.com/mendableai/firecrawl

安装

下载源代码后，docker-compose build 生成镜像，再使用docker-compose up -d 运行

API调用

整站爬取

curl -X POST https://api.firecrawl.dev/v1/crawl \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://docs.firecrawl.dev",
      "limit": 100,
      "scrapeOptions": {
        "formats": ["markdown", "html"]
      }
    }'

获取爬取状态

curl -X GET https://api.firecrawl.dev/v1/crawl/123-456-789 \
    -H 'Authorization: Bearer YOUR_API_KEY'

抓取单个 URL

curl -X POST https://api.firecrawl.dev/v1/scrape \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://docs.firecrawl.dev",
      "formats": ["markdown", "html"]
    }'

获取网站地图

curl -X POST https://api.firecrawl.dev/v1/map \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://firecrawl.dev"
    }'

回到顶部