6163银河.net163.am(中国·官方网站)-Webgame Platform

首页 >新闻 >社会新闻

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

2025-05-07 16:32:44

来源：

猫眼电影

作者：

影佐祯昭

手机查看

　　猫眼电影记者胡金力报道w3u7903ejky2ywls

BrowseComp-ZH团队投稿量子位 | 公众号 QbitAI

你以为大模型已经能轻松“上网冲浪”了？

新基准测试集BrowseComp-ZH直接打脸主流AI。

BrowseComp-ZH是一项由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集，让20多个中外主流大模型集体“挂科”：

GPT-4o在测试中准确率仅6.2%；多数国产/国际模型准确率跌破10%；即便是目前表现最好的OpenAI DeepResearch，也仅得42.9%

目前，BrowseComp-ZH的全部数据已开源发布。

研究团队直言：

为什么我们需要中文网页能力测试？

如今的大模型越来越擅长“用工具”：能连搜索引擎、能调用插件、能“看网页”。

但众多评估工具都只在英文语境下建立，对中文语境、中文搜索引擎、中文平台生态考虑甚少。

然而，中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。

中文网页世界到底有多难？举几个例子你就明白了：

信息碎片化，分散在百度百科、微博、地方政府网站、视频号等多平台常见的语言结构中含有省略、典故、代指，关键词检索常常“跑偏”搜索引擎本身质量参差，信息“沉底”或“走丢”都是常事

因此，英文测试集“翻译一下”根本不够。

需要从中文语境原生设计，才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。

BrowseComp-ZH是怎么炼成的？

研究团队采用了“逆向设计法”：从一个明确、可验证的事实答案出发（如某个画种、机构、影视剧名），反向构造出多个约束条件的复杂问题，确保以下三点：

百度/Bing/Google三大搜索引擎首屏无法直接命中答案多个主流大模型在检索模式下也无法直接答对经过人工验证，问题结构清晰，且仅有唯一答案

最终，他们构建了289道高难度中文多跳检索题目，覆盖影视、艺术、医学、地理、历史、科技等11大领域

大模型集体“翻车”？DeepResearch勉强破四成，绝大多数连10%都不到

在BrowseComp-ZH的测试下，多款国内外主流大模型集体“翻车”：

尽管这些模型在对话理解、生成表达方面已展现强大实力，但在面对中文互联网的复杂检索任务时，准确率普遍低得惊人：

多数模型准确率低于10%，仅少数能突破20%OpenAI DeepResearch以42.9%位列第一，仍远未“及格”

研究者指出，这一结果说明：模型不仅需要会“查资料”，更要会“多跳推理”与“信息整合”，才能在中文互联网中真正找到答案。

四大发现，揭示中文网页任务的“模型死角”1. 仅靠记忆不行，得真本事

纯靠参数记忆（无搜索）的模型准确率往往低于10%，说明“硬背”不靠谱。

2. 有推理的模型，表现更好

DeepSeek-R1（23.2%）比DeepSeek-V3（8.7%）整整高出14.5%，Claude-3.7也比Claude-3.5提升了12.2%，推理能力成为关键变量。

3. 搜得多 ≠ 搜得准，多轮策略才是王道

具备多轮检索能力的AI搜索产品全面胜出：

DeepResearch：42.9%豆包Deep Search：26.0%Perplexity Research模式：22.6%

相比之下，只检索一次的模型（如Kimi、Yuanbao）准确率低至个位数。

4. 搜索功能“翻车”？接入反而变差

最典型的反例是DeepSeek-R1，开启搜索功能后准确率从23.2%断崖式跌至7.6%

研究指出，模型未能将网页检索信息与已有知识有效融合，反而被误导。

数据集开放！欢迎模型开发者挑战

BrowseComp-ZH的全部数据已开源发布。

研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石，助力构建真正“会用中文上网”的智能体。

下一步，他们计划扩充样本规模，拓展问答形式，并深入分析模型推理路径与失败案例。

论文地址：https://arxiv.org/abs/2504.19314代码地址：https://github.com/PALIN2018/BrowseComp-ZH

— 完 —

时事1：爽⋯好大⋯快⋯深一触手动漫

05月07日,“两路”通车70年，天路遍开格桑花,

　　在隆隆声中，成片成片的参天大树折断，很多都是十几人才能合抱过来的粗大巨木，青鳞鹰直接俯冲而过，铁翅击断一切障碍物，满地都是枝桠与乱叶。

,妻子拳交重口视频。

05月07日,刘建超访问美国,

　　人们习惯了，接连半个月都如此，由最初的震惊到麻木，很快适应了。

,雷电将军❌自慰喷水漫画,欧美性生交XXXXXoo,动漫美女露小奶头❌的漫画。

时事2：鞠婧祎mv造梦大全视频免费观看

05月07日,市场监管部门2023年查办各类不正当竞争案件12496件罚没金额5.82亿元,

　　“什么时候走？”

,男生自慰时把精子喷在我脚上,可以射妹妹脚上,www深夜成人🔞漫画网站下载。

05月07日,LPGA蓝湾大师赛参赛阵容出炉世界排名前四选手领衔参赛,

　　最终，当宁静下来时，小不点只退出去几步而已，其神力堪称惊世，硬撼这么庞大的一头金色的穿山甲，毫不落在下风。

,坤坤浏览器老司机模式下载,免费高清🔞❌♋性巴克,eipril。

时事3：ai白鹿被❌到高

05月07日,中国队获巴黎奥运会男子4×100米接力项目入场券,

　　族人闻言都担心，小不点虽然很强，但毕竟是一个孩子，而对方那里高手众多，更是有一头祭灵，让人生畏。

,大黑塔涩涩同人❤️网站,性の欲びの熟女丿,宁荣荣3D❌禁漫在线看视频。

05月07日,丹麦名将安赛龙羽毛球男单卫冕,

　　铁箭划过山林，惊起一片兽吼声，片刻后一群孩子骑着独角兽狼狈而逃，因为遇上了一头大家伙，他们对付不了。

,日韩大尺度做爰啪啪床戏麻豆,扒开美女C狂揉免费,marlerbrinx欧美激情。

时事4：中国变态浣肠㊙️免费视频

05月07日,第二届西藏青少年铸牢中华民族共同体意识主题演讲大赛社会海选举行,

　　“阿蛮是一个好姐姐，很善良，也很漂亮，常给我讲故事，人可好了。”小石昊眨着大眼，很纯真的说道。

,琳妮特裸体❌开腿羞羞视频,关晓彤一级大黄毛片,美女🔞男女激情晚上看电影。

05月07日,坚持互信互利合作，中国不仅是倡导者更是行动派,

　　不到最后一刻绝不轻言放弃责

,男人的🍌伸到🍑里,无尽裸体白丝网站,无尽❌大胸❌动漫❌扶墙。

【遇见习近平丨北京正在书写历史】

【共赴春日之约呼和浩特“锦绣北疆·花漾青城”赏花季开启】

责编：钱发民

审核：宋馨便

责编：瓦贝尔·阿卜达拉