跳转到主要内容

网站采集工具firecrawl

参考

反正就是一个很牛逼的网站爬取工具,支持纯JS网站,也就是现在流行的VUE等没有html的网站,原来是集成了一个无头chrome,等页面渲染了才爬取。

特性
  • 整站爬取
  • 单个页面爬取
  • 纯JS网站爬取
  • 提取为LLM支持的markdown格式,当然了,直接爬取HTML是基本操作
  • 只抓取main页面,排除

相关文档和参考地址

安装

下载源代码后,docker-compose build 生成镜像,再使用docker-compose up -d 运行

API调用

  • 整站爬取
curl -X POST https://api.firecrawl.dev/v1/crawl \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://docs.firecrawl.dev",
      "limit": 100,
      "scrapeOptions": {
        "formats": ["markdown", "html"]
      }
    }'


  • 获取爬取状态
curl -X GET https://api.firecrawl.dev/v1/crawl/123-456-789 \
    -H 'Authorization: Bearer YOUR_API_KEY'
  • 抓取单个 URL
curl -X POST https://api.firecrawl.dev/v1/scrape \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://docs.firecrawl.dev",
      "formats": ["markdown", "html"]
    }'

  • 获取网站地图
curl -X POST https://api.firecrawl.dev/v1/map \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://firecrawl.dev"
    }'