BBC News Detail
BBC News Detail 用于按新闻详情页链接获取 BBC News 文章详情数据。
- 按新闻详情页链接抓取 BBC News 文章内容
- 支持按地区发起请求
- 返回标题、摘要、作者、发布时间、正文、图片和主题标签
- 支持一次请求传入多个新闻链接
使用 XCrawl 获取 BBC News 详情
使用方式
curl -s -X POST 'https://run.xcrawl.com/v1/data' \
-H 'Authorization: Bearer $XCRAWL_API_KEY'\
-H 'Content-Type: application/json' \
-d '{
"engine": "bbc_news_detail",
"location": "US",
"news_url_list": [
"https://www.bbc.com/news/articles/c1l9v95qmy4o"
]
}'请求参数说明:
engine固定为bbc_news_detaillocation用于指定请求地区news_url_list用于传入一个或多个 BBC News 详情页链接
响应示例
{
"result": [
{
"url": "https://www.bbc.com/news/articles/c1l9v95qmy4o",
"headline": "Iran war triggering Yorkshire Easter staycation boom",
"description": "Yorkshire holiday venue owners say they have seen a \"spike in bookings\" due to the Iran conflict.",
"article_type": "article",
"section_name": "England",
"publisher_name": "BBC News",
"published_at": "2026-03-30T04:58:20.332Z",
"authors": [
{
"name": "Cathy Killick",
"role": "Yorkshire"
}
],
"main_image_url": "https://ichef.bbci.co.uk/news/1024/...",
"topics": [
{
"id": "c0eledl9rlmt",
"title": "Tourism",
"url": "https://www.bbc.com/news/topics/c0eledl9rlmt",
"is_event": false
}
],
"body_text": "Some holiday venues in Yorkshire have reported a surge in demand for Easter bookings...",
"word_count": 428,
"read_time_minutes": 2
}
]
}参数说明
必填参数
| 参数 | 类型 | 说明 |
|---|---|---|
location | string | 指定请求地区。 |
news_url_list | array | 传入一个或多个 BBC News 详情页链接。 |
参数补充说明
location默认值为USlocation支持多个地区值,例如US、HK、CA、GB、JPnews_url_list默认值为空数组,数组元素应为 BBC News 详情页链接
响应字段
| 字段 | 类型 | 说明 |
|---|---|---|
url | string | 抓取的新闻详情页链接。 |
base_url | string | 用于补全相对链接的站点基础地址。 |
page_title | string | 页面 HTML 标题。 |
canonical_url | string | 页面声明的规范链接。 |
article_id | string | BBC 文章内容标识。 |
headline | string | 主标题。 |
promo_headline | string | 页面展示使用的短标题。 |
seo_headline | string | SEO 标题。 |
description | string | 文章摘要或导语。 |
article_type | string | 内容类型,例如 article。 |
schema_type | string | Schema.org 类型。 |
content_type | string | 归一化后的内容域或内容类型。 |
section_name | string | 所属栏目名称。 |
section_url | string | 所属栏目链接。 |
pillar_name | string | 顶层栏目名称。 |
pillar_url | string | 顶层栏目链接。 |
publisher_name | string | 发布方名称。 |
publisher_logo_url | string | 发布方 Logo 链接。 |
language_code | string | 语言代码。 |
published_at | string | 发布时间,ISO 8601 格式。 |
modified_at | string | 更新时间,ISO 8601 格式。 |
published_timestamp_ms | number | 发布时间戳,单位为毫秒。 |
modified_timestamp_ms | number | 更新时间戳,单位为毫秒。 |
authors | array | 结构化作者列表。 |
author_names | array | 作者名称列表。 |
main_image_url | string | 主图链接。 |
main_image_alt_text | string | 主图替代文本。 |
main_image_caption | string | 主图说明文字。 |
main_image_width | number | 主图宽度。 |
main_image_height | number | 主图高度。 |
main_image_original_src | string | 主图原始链接。 |
main_image_aspect_ratio | number | 主图宽高比。 |
topics | array | 主题标签列表。 |
body_paragraphs | array | 正文段落列表。 |
body_text | string | 合并后的正文文本。 |
word_count | number | 估算字数。 |
read_time_minutes | number | 预计阅读时长。 |
meta | object | 页面元数据。 |
作者字段
authors[] 中每一项通常包含以下字段:
| 字段 | 类型 | 说明 |
|---|---|---|
name | string | 作者名称。 |
role | string | 作者角色、地区或署名补充信息。 |
主题字段
topics[] 中每一项通常包含以下字段:
| 字段 | 类型 | 说明 |
|---|---|---|
id | string | 主题标识。 |
title | string | 主题名称。 |
url | string | 主题页链接。 |
is_event | boolean | 是否为事件型主题。 |
