猫眼电影
猫眼电影记者 蔡雪洁 报道w3u7903ejky2ywls
BrowseComp-ZH团队 投稿量子位 | 公众号 QbitAI
你以为大模型已经能轻松“上网冲浪”了?
新基准测试集BrowseComp-ZH直接打脸主流AI。
BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:
GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%
目前,BrowseComp-ZH的全部数据已开源发布。
研究团队直言:
为什么我们需要中文网页能力测试?
如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。
但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。
然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。
中文网页世界到底有多难?举几个例子你就明白了:
信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事
因此,英文测试集“翻译一下”根本不够。
需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。
BrowseComp-ZH是怎么炼成的?
研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:
百度/Bing/Google三大搜索引擎首屏无法直接命中答案多个主流大模型在检索模式下也无法直接答对经过人工验证,问题结构清晰,且仅有唯一答案
最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域
大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到
在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”:
尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人:
多数模型准确率低于10%,仅少数能突破20%OpenAI DeepResearch以42.9%位列第一,仍远未“及格”
研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。
四大发现,揭示中文网页任务的“模型死角”1. 仅靠记忆不行,得真本事
纯靠参数记忆(无搜索)的模型准确率往往低于10%,说明“硬背”不靠谱。
2. 有推理的模型,表现更好
DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成为关键变量。
3. 搜得多 ≠ 搜得准,多轮策略才是王道
具备多轮检索能力的AI搜索产品全面胜出:
DeepResearch:42.9%豆包Deep Search:26.0%Perplexity Research模式:22.6%
相比之下,只检索一次的模型(如Kimi、Yuanbao)准确率低至个位数。
4. 搜索功能“翻车”?接入反而变差
最典型的反例是DeepSeek-R1,开启搜索功能后准确率从23.2%断崖式跌至7.6%
研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。
数据集开放!欢迎模型开发者挑战
BrowseComp-ZH的全部数据已开源发布。
研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。
下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。
论文地址:https://arxiv.org/abs/2504.19314代码地址:https://github.com/PALIN2018/BrowseComp-ZH
— 完 —
时事1:趁教官睡着闻他的黑袜脚
05月12日,3分49秒58 孙杨夺男子400米自由泳冠军,
“嗡!”
,欧美男GayGays✅免费网站。05月12日,厚植为民情怀,千方百计解决群众的烦心事,
1、发现火灾,可以打电话119直接报警。
,把校花🌸吊起来打屁股,免费看女人隐私开腿网站,Feer♥XXX♥Movies动漫。时事2:妲己女被黄漫视频下载
05月12日,前5月,中蒙中俄最大陆路口岸中欧班列开行超3000列,
此次讲座彭警官抓住小学生的特点,从火灾发生后报警的注意事项,如何从火场逃生,如何防火,灭火器的使用方法等几个方面对学生进行了培训。最后还进行了消防知识的有奖竞猜,同学们积极参与,气氛热烈。 短短近一个小时的讲座,内容丰富、生动翔实,受到了全体学生的一致好评。
,神木丽SSNI-879无码播放,动漫美女❌爆奶水摇舌头,日韩码波多野结衣秘书红豆。05月12日,大湾区潮青集体骑行“向汕”迎全球潮团两大盛会, 常泰长江大桥是长江上首座集高速公路、城际铁路、普通公路三种方式于一体的过江通道。大桥全长10.03公里,其中公铁合建段长5299.2米,由一座主跨1208米的钢桁梁斜拉桥、两座主跨388米的钢桁拱桥和一座3×124米的连续钢桁梁桥组成,创下了最大跨度斜拉桥、最大跨度公铁两用钢桁拱桥和最大连续长度钢桁梁的世界纪录。,www.86skins.com,6月电子厂全景沟厕医,浪货三根都满足不了你。
时事3:furry脱精光洗澡时自慰
05月12日,2024世界传统医药大会在北京召开,
正是当年从狻猊眉心挖下的那块宝骨,经过数年的温养,被小不点祭成了一面宝镜,拥有可怕的神威。
,91丨PORNY丨首页,色家庭破解免费视频,叶山小百合大战女婿是第几集。05月12日,习近平:总理先生是中国人民的老朋友 致力于中尼友好事业 我深表赞赏,
1、重视信息工作,服务领导决策。信息是决策的基础和重要依据,信息工作做得好不好,提供的信息及时不及时、准确不准确、全面不全面,将直接影响党委的决策和对全局工作的领导。做好信息工作,一要求实,认真做好信息的收集、核实、整理工作,坚持实事求是,拓宽信息渠道,努力为领导提供客观全面的信息,做到喜忧兼报,坚决克服报喜不报忧的倾向,尤其要严格紧急信息报送制度,确保不迟报、不漏报、不瞒报;二要求特,根据党委各个时期关注的重大问题,紧贴决策,突出重点,精心提炼,体现特色,努力挖掘一些有事实、有分析、有观点,针对性和适用性都很强的信息;三要求简,善于从大量的信息中发现带有规律性、普遍性、倾向性的问题,开发出大主题、深层次、高质量的信息,力求写出精品,为经济建设和社会发展服务。
,火影忍者裸体❌开腿裸体,Lisa性做爰A片,老师❌开腿让我爽一夜在线。时事4:二次元内衣半裸❌羞羞
05月12日,“五一”假期迎客流高峰 银川客运段单日运送旅客量创历史新高,
同学们,昨天也许你还只是一个无忧无虑、稚气未脱的天真少年,是一朵含苞的花蕾。今天,你已经成为了一位英姿勃发的青年,是一朵盛开的鲜花,正处于人生中最绚烂的花季。进入高中,跨进永中的大门,是你们奋斗追求的又一新的起点,是你们扬帆远行的又一新的征程。在这里,参天的古木、蓊郁的花草,给你舒爽的空气;老师的点拔指引、朗朗的书声,给你知识的浸染;嘹亮的歌声、美丽的书画,给你艺术的熏陶;春风化雨般的真情关爱,冬日暖阳般的真诚相助,你的心定不会冷寂;兄弟姐妹般的真切情谊、温情大家庭的和睦温馨,你的身影绝不会孤单。刚走进高中校园的你们像一颗萌动的种子,一只振翅欲飞的雏鹰,而这里,就是你们播种希望的肥沃土地,就是你们展翅高飞的广阔天空,是你们大学梦圆的圣地!来吧,同学们,这里有慈如父母的老师,这里有亲如兄弟的同学。这里是欢乐的大家庭,这里是知识的竞技场。来吧,同学们,在这里放飞你的梦想,在这里收获你新的希望。
,柳智敏被c到高潮下不了床文,妲己含精肉臀迎合娇吟小说,精品无码秘人妻一区二区媚黑。05月12日,海普瑞回应:犯罪集团长时间周密布局,
我们新一届的团学干部要一直秉承着“自我服务,自我管理,自我教育”的“三自”理念,充当学院联系学生的桥梁和纽带,在本着来源于同学、服务于同学的同时,更要学会革旧鼎新,锐意进取,紧跟学院发展步伐,努力提升工作效率,加强各部门运行机制,完善各部门职能建设,构建科学高效的工作体系,做到更好的为学院和同学服务。在开展团学活动的方面,我们要在以往基础上不断拓宽我院的团学活动内涵和范围,提升思想与品位,努力打造一批具有湖工特色的品牌活动和经典赛事。
,男男打桩机高潮惨叫求饶,肉丝祙做爰XXXⅩ性视频,XXX♥Hentai卡通。责编:孙贤林
审核:谢岚
责编:李镜如