Crawl

Crawl 用于按规则批量抓取站点页面。XCrawl 会根据指定的 URL 在站内发现所有链接并依次抓取。

构建某个站点的知识库
对站点进行定向采集
生成站点地图

详情请参阅 Crawl API 参考。

使用 XCrawl 进行批量抓取

/crawl 接口

使用方式

curl -s -X POST 'https://run.xcrawl.com/v1/crawl' \
  -H 'Authorization: Bearer $XCRAWL_API_KEY'\
  -H 'Content-Type: application/json' \
  -d '{
    "url": "https://docs.xcrawl.com/doc/",
    "crawler": {
      "limit": 1,
      "max_depth": 1
    },
    "output": {
      "formats": ["markdown"]
    }
  }'

响应示例

{
  "crawl_id": "01KKE8BNNVQH9PCYEEKJGXKE07",
  "endpoint": "crawl",
  "version": "dca0d4b3bff035e4",
  "status": "crawling"
}

crawler 控制

通过 crawler 参数控制抓取范围：

include：仅抓取匹配规则的 URL（支持正则表达式）
exclude：排除匹配规则的 URL（支持正则表达式）
max_depth：最大爬取深度
limit：抓取页面数量上限
include_entire_domain：是否抓取全站内容而非指定URL的子路径
include_subdomains：是否抓取子域名
include_external_links：是否抓取外部链接
sitemaps：是否使用站点 sitemap