输出格式
scrape 与 crawl 都通过 output.formats 控制输出格式。
{
"output": {
"formats": [
"markdown",
"links",
"summary"
]
}
}支持的 formats
output.formats 支持:
htmlraw_htmlmarkdownlinkssummaryscreenshotjson
默认值:
["markdown"]
返回字段与含义
返回结果位于响应体的 data 字段下(同步 scrape)或结果查询接口(scrape/crawl result)。
html:剔除<head>、<script>等后的正文 HTMLraw_html:原始 HTMLmarkdown:页面内容转换后的 Markdownlinks:页面中解析到的链接列表metadata:页面元信息(如title、status_code、content_type、proxy_location等;可能动态扩展)screenshot:截图下载地址(当formats包含screenshot)summary:页面 AI 摘要json:AI 结构化抽取结果(JSON)
截图
当 formats 包含 screenshot 时,还可通过 output.screenshot 指定截图范围:
viewport(默认)full_page
JSON(结构化抽取)
当 formats 包含 json 时,可通过 output.json 指定抽取规则:
{
"output": {
"formats": [
"json"
]
},
"json": {
"prompt": "Extract product name and price from the page.",
"json_schema": {
"type": "object",
"properties": {
"product_name": {
"type": "string"
},
"price": {
"type": "string"
}
},
"required": [
"product_name",
"price"
]
}
}
}