6163银河.net163.am(中国·官方网站)-Webgame Platform
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉

2025-04-23 18:21:11
来源:

猫眼电影

作者:

黎芷珊

手机查看

  猫眼电影记者 吴新财 报道w3u7903ejky2ywls

得分比第二名翻倍,成本却仅为1/20?!

o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。

根据ARC Prize官方介绍,本轮测试得出的关键结论如下:

o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%

按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”。

不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。

那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?

原来前后两个模型虽然名称一样,但实际并非相同的模型。

OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。

△图源:ARC Prize官网

甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。

宾大沃顿商学院教授Ethan Mollick更是直言:

现在有更多的证据表明, o3代表着一次重大进步。

与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。

正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。

除了中杯o3取得的好成绩,更多测试结果如下:

首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。

理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。

同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

如今,你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。

除此之外,ARC官方还得出了三个关键发现:

1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。

2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

One More Thing

顺带一提,ARC官方早前还测试过DeepSeek-R1。

最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。

你怎么看o3的新测试?

 时事1:伸进女同桌乳沟里摸爽了作文

  04月23日,云南省大理州政协原一级巡视员段玠接受审查调查,

  “肢解狻猊,准备向鼎中注入宝血!”石云峰大喝道。

,女屁股从白打到红网站。

  04月23日,生逢其时勇担时代重任,

  今天,举行我镇第八届村两委换届选举后主持日常工作村干、计生专干的培训班,其意有三:一是两委换届后工作头绪多,日常工作量大,为了确保培训内容、质量,需要一段时间精心准备;二是少数村换届选举后有一个从波动到稳定的过程,需要适当的时间来检测;三是“双十”寄希望于全体村主持日常工作的村干、计生专干、在本届任期内要十分之意为民服务,十分之力勤勉工作,为第八届村两委的各项工作开好局、起了步而努力工作,奋力推进镇新农村建设和小康社会进程。第八届村党组织、村民委员会换届选举工作历时两个月,在座的同志们又经历了一次党组织的考验和选民的选择,这是基层民主政治制度在各村又一次生动实践,除因任职年龄等因素主动退出来一些同志外,大部分同志都为连选连任,部分同志是新当选的新人。无论是连选连任还是新当选,都是党内外选民的现实选择,都是必然和偶然的结合,希望同志们尊重必然,珍惜偶然,以今天的培训班为新起点、新征程、新境界。接过第七届村两委的“接力棒”,肩负起建设“四个”(生态、人文、和谐、魅力)和创新村级社会管理的责任,探索符合村情的“一村一品”、“多元发展”的新格局,开创出谋发展、求和谐、创特色、增收入的新路子,挡担起走在全县发展前列的责任和使命,承载起全镇各级党组织、广大和 万人民的希望和重托,为完成“”规划宏伟目标,描绘村级平台壮美画卷,为建设一个“生态环境好、经济发展快、幸福指数高的十一个美丽乡村而团结奋斗!

,小舞用白丝脚帮我脚交,大胸少萝100%裸体无遮掩,一整部都在ido的小说。

 时事2:少年骇客小纹被小班❌

  04月23日,两会受权发布|第十四届全国人民代表大会第二次会议关于最高人民法院工作报告的决议,

  “这么幼小,仅肉身就有那般神力?”旁人都不敢相信,同时恍然,难怪白衣女子被拉了一个趔趄,差点跌倒。

,熊出没纳雅黄改,13学生小美女洗澡裸体直播,同桌扒开我腿用震蛋器折磨我微博。

  04月23日,李强同尼泊尔总理奥利举行会谈,

农行信用卡逾期处理的最佳方案有哪些,怎么跟银行协商解决

,女初高中打屁股❤ⅹ网站,婬乱婬妺妺帮我做H第一次高干文,性XXX欧美胖老大。

 时事3:千仞雪被❌吸乳羞视频3D

  04月23日,港铁本地服务总客量恢复至疫情前逾九成,

  这才片刻间而已,地上就是一层尸体了,古巢入口的尸骨更是堆成了一座小山,各个种族的生灵都有。

,полов акт 720HD,小萝被❌到爽🔞日本,扒开腿挺进肉嫩小泬喷水作文。

  04月23日,坐着火车出国啦!五一中老铁路跨境客货运输双增长,

  顿时,石村再次忙碌起来,一口又一口大鼎沸腾,太古遗种的宝血被充分利用了起来,全村人都将受益。

,扶她futa巨茎漫画,精东www含羞草无码入口,10后脱了内裤自慰在。

 时事4:宿友c我🌿男男开车动漫

  04月23日,大省见闻丨广东的守与进:制造业再攀高,

  动漫文化创意产业至少还有二十年的钻石发展时间,顺势而为、顺应潮流,在正确的时间做正确的事,这是_创业20_年行事的宗旨。虽然品牌是中国的,但是我们的视野以及我们的定位都是国际化的,我们的下一个梦想,就是做成一个真正的国际品牌,让企业更有尊严与价值。_经历这20_年的内生改变积累,一定能够指引未来十年发展方向。未来三年公司将启动“千店计划”布局国内市场。立足一、二线城市,决胜终端。

,美女㊙️无遮挡撒尿,18禁女人自慰,美女写真禁18❤。

  04月23日,浙江海事驻点助义乌汽车出口“一箱到底”,

  石子陵的妻子抱着幼子,浑身流动晶莹光辉,跟在后方,一路相随。

,丝瓜视频成人app❤免费,黑人巨大❌❌❌两根一起,射精软件。

责编:赵俊杰

审核:杨裕生

责编:张今标

相关推荐 换一换