BBC News Search
BBC News Search 用于按关键词获取 BBC 搜索结果数据。
- 按关键词抓取 BBC 搜索结果
- 支持按地区发起请求
- 支持从指定页开始连续抓取多页结果
- 返回结果列表、分页信息和内容元数据
使用 XCrawl 获取 BBC News 搜索结果
使用方式
curl -s -X POST 'https://run.xcrawl.com/v1/data' \
-H 'Authorization: Bearer $XCRAWL_API_KEY'\
-H 'Content-Type: application/json' \
-d '{
"engine": "bbc_news_search",
"keyword": "coffee",
"location": "US",
"start_page": 1,
"pages": 1
}'请求参数说明:
engine固定为bbc_news_searchkeyword用于指定搜索关键词location用于指定请求地区start_page和pages用于控制抓取页码范围
响应示例
{
"result": [
{
"url": "https://www.bbc.com/search?q=coffee&page=1",
"query": "coffee",
"current_page": "1",
"page_size": 9,
"total_results": 10000,
"result_count": 9,
"results": [
{
"position": 1,
"title": "The 7am ravers swapping clubbing for coffee",
"url": "https://www.bbc.com/news/videos/c0j644158p3o",
"content_type": "video",
"image_url": "https://ichef.bbci.co.uk/news/480/...",
"first_updated_at": "2026-04-02T17:32:07.359000+00:00",
"content_domain": "news"
}
]
}
]
}参数说明
必填参数
| 参数 | 类型 | 说明 |
|---|---|---|
location | string | 指定请求地区。 |
keyword | string | 指定搜索关键词。 |
start_page | number | 指定从第几页开始抓取。 |
pages | number | 指定连续抓取的页数。 |
参数补充说明
location默认值为USlocation支持多个地区值,例如US、HK、CA、GB、JPkeyword默认值为coffeestart_page默认值为1pages默认值为1
响应字段
| 字段 | 类型 | 说明 |
|---|---|---|
url | string | 抓取的 BBC 搜索页链接。 |
base_url | string | 用于补全相对链接的站点基础地址。 |
page_title | string | 搜索页标题。 |
query | string | 最终生效的搜索关键词。 |
query_from_url | string | 从请求链接中提取的关键词。 |
query_from_next_data | string | 从页面数据中提取的关键词。 |
current_page | string | 当前结果页码。 |
page_size | number | 当前页包含的结果数量。 |
total_results | number | 搜索结果总条数。 |
total_results_is_capped | boolean | 总结果数是否为上限值。 |
route_key | string | 页面内部路由标识。 |
country | string | 页面状态中的国家值。 |
server_env | string | 页面环境标识。 |
correlation_id | string | 页面关联标识。 |
asset_prefix | string | 静态资源前缀。 |
build_id | string | 页面构建标识。 |
result_count | number | 当前响应返回的结果数量。 |
meta | object | 页面元数据。 |
results | array | 搜索结果列表。 |
结果项字段
results[] 中每一项通常包含以下字段:
| 字段 | 类型 | 说明 |
|---|---|---|
position | number | 当前页内的结果位置,从 1 开始。 |
id | string | 内容标识。 |
title | string | 结果标题。 |
url | string | 结果链接。 |
path | string | 结果相对路径。 |
is_live_now | boolean | 是否为正在直播或进行中的内容。 |
description | string | 结果摘要。 |
content_type | string | 内容类型,例如 article、video、episode。 |
subtype | string | 结果子类型。 |
topics | array | 结果关联主题。 |
brand_name | string | 品牌或栏目名称。 |
first_updated_timestamp_ms | number | 首次更新时间戳,单位为毫秒。 |
last_updated_timestamp_ms | number | 最后更新时间戳,单位为毫秒。 |
first_updated_at | string | 首次更新时间,ISO 8601 格式。 |
last_updated_at | string | 最后更新时间,ISO 8601 格式。 |
image_url | string | 主图链接。 |
image_alt_text | string | 图片替代文本。 |
image_width | number | 图片宽度。 |
image_height | number | 图片高度。 |
image_aspect_ratio | number | 图片宽高比。 |
content_domain | string | 根据链接归一化后的内容域。 |
