网易首页 > 网易号 > 正文 申请入驻

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

0
分享至

BrowseComp-ZH团队 投稿
量子位 | 公众号 QbitAI

你以为大模型已经能轻松“上网冲浪”了?

新基准测试集BrowseComp-ZH直接打脸主流AI。

BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:

GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%

目前,BrowseComp-ZH的全部数据已开源发布。

研究团队直言:

为什么我们需要中文网页能力测试?

如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。

但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。

然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。

中文网页世界到底有多难?举几个例子你就明白了:

  • 信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台
  • 常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”
  • 搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事

因此,英文测试集“翻译一下”根本不够。

需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。

BrowseComp-ZH是怎么炼成的?

研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:

  • 百度/Bing/Google三大搜索引擎首屏无法直接命中答案
  • 多个主流大模型在检索模式下也无法直接答对
  • 经过人工验证,问题结构清晰,且仅有唯一答案

最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域

大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到

在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”:

尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人:

  • 多数模型准确率低于10%,仅少数能突破20%
  • OpenAI DeepResearch以42.9%位列第一,仍远未“及格”

研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。

四大发现,揭示中文网页任务的“模型死角”
1. 仅靠记忆不行,得真本事

纯靠参数记忆(无搜索)的模型准确率往往低于10%,说明“硬背”不靠谱。

2. 有推理的模型,表现更好

DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成为关键变量。

3. 搜得多 ≠ 搜得准,多轮策略才是王道

具备多轮检索能力的AI搜索产品全面胜出:

  • DeepResearch:42.9%
  • 豆包Deep Search:26.0%
  • Perplexity Research模式:22.6%

相比之下,只检索一次的模型(如Kimi、Yuanbao)准确率低至个位数。

4. 搜索功能“翻车”?接入反而变差

最典型的反例是DeepSeek-R1,开启搜索功能后准确率从23.2%断崖式跌至7.6%

研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。

数据集开放!欢迎模型开发者挑战

BrowseComp-ZH的全部数据已开源发布。

研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。

下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。

论文地址:
https://arxiv.org/abs/2504.19314
代码地址:
https://github.com/PALIN2018/BrowseComp-ZH

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

往史过眼云烟
2026-03-26 20:33:55
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
何鸿燊是个谜!2009年,88岁何鸿燊各脏器就已衰竭

何鸿燊是个谜!2009年,88岁何鸿燊各脏器就已衰竭

果妈聊娱乐
2026-03-26 10:00:16
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

爆笑大聪明阿衿
2026-03-26 20:48:48
老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

复转这些年
2026-03-22 17:48:38
老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

千秋文化
2026-03-24 21:30:09
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
《浪姐2026》阵容惹争议,32位姐姐一半不认识,范玮琪被抵制

《浪姐2026》阵容惹争议,32位姐姐一半不认识,范玮琪被抵制

啊呆吃瓜
2026-03-26 19:35:03
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
刘晓庆妹妹发声反驳!称姐姐受身边人挑拨,支持她把遗产捐给国家

刘晓庆妹妹发声反驳!称姐姐受身边人挑拨,支持她把遗产捐给国家

萌神木木
2026-03-26 18:26:44
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
2026-03-27 01:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
时尚
手机
健康
军事航空

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

400万人爱过的女孩,被黄谣网暴180天后

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

转头就晕的耳石症,能开车上班吗?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版