Crawl
Crawl 用于按规则批量抓取站点页面。XCrawl 会根据指定的 URL 在站内发现所有链接并依次抓取。
- 构建某个站点的知识库
- 对站点进行定向采集
- 生成站点地图
详情请参阅 Crawl API 参考。
使用 XCrawl 进行批量抓取
/crawl 接口
使用方式
curl -s -X POST 'https://run.xcrawl.com/v1/crawl' \
-H 'Authorization: Bearer $XCRAWL_API_KEY'\
-H 'Content-Type: application/json' \
-d '{
"url": "https://docs.xcrawl.com/doc/",
"crawler": {
"limit": 1,
"max_depth": 1
},
"output": {
"formats": ["markdown"]
}
}'响应示例
{
"crawl_id": "01KKE8BNNVQH9PCYEEKJGXKE07",
"endpoint": "crawl",
"version": "dca0d4b3bff035e4",
"status": "crawling"
}crawler 控制
通过 crawler 参数控制抓取范围:
include:仅抓取匹配规则的 URL(支持正则表达式)exclude:排除匹配规则的 URL(支持正则表达式)max_depth:最大爬取深度limit:抓取页面数量上限include_entire_domain:是否抓取全站内容而非指定URL的子路径include_subdomains:是否抓取子域名include_external_links:是否抓取外部链接sitemaps:是否使用站点 sitemap
