克雷西 发自 凹非寺量子位 | 公众号 QbitAI
紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。
作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。
这样的表现,让Gemini 2.5 Flash的性价比直接拉满。
而且还是一款混合推理模型,可以自由设定思考深度,帮助预算不足的用户进一步控制推理成本。
目前,preview版本(不同于Gemini网页版中的版本)已在Google AI Studio和Vertex AI的 API中上线。
主打性价比,思考深度自由调控
在大模型竞技场上,经过3000多轮对战,Gemini 2.5 Flash获得了1392分的成绩,与Grok-3、GPT-4.5等模型并列第二。
综合成绩仅次于自家的Pro版,这样看来在竞技场中战胜谷歌的只有谷歌了。
并且在编程、复杂提示和长文本三个子榜单中,都和Pro版并列第一。
在大模型竞技场推出的WebDev榜单里,Gemini 2.5 Flash位列第七,超过了前一代(2.0)的Pro版本。
此外谷歌还展示了Gemini 2.5 Flash在一系列高难度数据集上的表现。
其中包括由1000多名学者提出的“人类最后的考试”,这套测试集发布时没有任何一个模型得分超过10%,现在Gemini 2.5 Flash的成绩是12.1%。
作为Flash版本,Gemini 2.5 Flash在谷歌自家的模型中,是至今性价比最高的版本。
其价格为0.15/0.6/3.5美元每百万输入/输出/推理Token,和o4-mini相比便宜了不少。
实际上,如果按照输入输出3:1的比例计算,在大模型竞技场1400分附近,Gemini 2.5 Flash是最便宜的一款模型。
△请注意横轴数字非单调下降
另外对于价格相对较高的推理过程,Gemini 2.5 Flash支持自由深度控制(甚至完全关闭),可以帮助预算不足的用户节约成本。
如果不进行设置,模型也会根据prompt自己判断适宜的思考深度,避免在简单的问题上过度思考,从而平衡成本。
o4-mini的竞争者?
在HackerNews上,Gemini 2.5 Flash引发了热烈的讨论。
有人认为,谷歌不搞炒作,但实际上性价比非常高,谷歌正在赢得人工智能竞赛。
也有人觉得,便宜是便宜,但是模型有时候会犯懒,不过这也在预料之中。
当然,实际应用还是要看具体任务,不过可以确定的是,Gemini 2.5 Flash的性价比已经获得了部分人的认可。
另外由于Gemini的Flash版本和OpenAI的mini类似,再加上上线时间邻近,Gemini 2.5 Flash也被视为o4-mini的竞争者。
不过从谷歌官方发布的成绩单上看,Gemini 2.5 Flash在一些难度较高的测试集中,表现是要稍逊于o4-mini的。
但如果考虑价格,这样的差距似乎可以接受,而且实际任务当中,也不总是需要模型能够应付这些最难的问题。
那么,在实际环境当中,Gemini 2.5 Flash的表现又如何呢?首先看看编程能力。
先安排一下著名的小球测试变体——一个大五边形中包含了三个缺一边的小五边形,之间互不交叉,小球在其中按照物理规律运动。
五边形的部分Gemini 2.5 Flash,正确绘制出来了,但对于小球则是完全已读乱回,经过了反复调整之后依然翻车。
再看o4-mini,运行结果符合提示词要求,并且代码更加精简,仅128行,而Gemini版本超过了500行。
这一轮,o4-mini胜。
再看数据分析能力。
我们找来了最近某班次航班的飞行记录,包含了起飞到降落过程中各时间点的位置、高度、速度、航向等信息,一共有1700余个数据点。
给出的任务则是绘制出高度和速度随时间变化的折线图,并且涉及到了时区和计量单位的换算(原始数据中时间为UTC时间、高度为英尺、速度为节,需要换算成北京时间、高度单位为米、速度单位为公里每小时)。
虽然我们上传了数据文件,但一开始Gemini没有选择外挂,而是把数据全都写进了Python代码,导致代码非常冗长。
经过提示之后,Gemini对代码进行了改进,得到了正确的图像。
o4-mini这边,虽然结果也对,但是没有考虑清楚坐标轴文本的长度,导致横轴上所有标签都挤成一团。
而且相比之下,Gemini的版本还带有网格线,能够更清晰地看出各点对应的大致数值。
这一轮,Gemini胜。
最后一轮,来看下两款模型的多模态理解能力。
这是英伟达最近一个月的股票形势图,我们让两款模型分别分析一下最佳的入手时机。
它们都从图中正确发现了最低点和对应的时间,至于回答质量,还是直接看他们的输出结果:
总的来说,如果不考虑价格,Gemini 2.5 Flash确实和o4-mini比还有些不尽如人意,但落地中考虑性价比,可能综合竞争力就体现出来了。
参考链接:https://developers.googleblog.com/en/start-building-with-gemini-25-flash
《古装舒淇五点全开》,《w3u7903ejky2ywls》敌伦交换一区二区三区的背景故事
“花火被博人❌同人本子”
❤禁漫天堂❤在线入口
……
04月21日
“大胸❌❌裸体❌❌奶头❌❌尿口”好或坏的东载
↓↓↓
04月21日,国际识局:如果针对尹锡悦的弹劾案通过,会发生什么?,野原琳乳暴❌自慰naruto,成人免费色情美女视频抹茶,女被❌c🐻游戏模拟器苹果,成人❌❌❌
04月21日,让“清新的蓝”“怡人的绿”成为厦门恒久骄傲,莫莉被诸神抓住玩弄双乳斩神,ThePorn在线看片,尼尔2b性调教3d视频免费,原神被❌到爽🔞流漫画视女仆
04月21日,两度被村民按手印挽留的驻村第一书记,日本少妇XXXX软件,哪吒敖闰裸体被❌涩涩内内,男男doi攻🌿的巨猛受受视频,欧美性猛交❌❌❌❌辛迪视频
04月21日|国家气候中心:未来十天影响中国冷空气整体势力不强 但活动频繁|yaoi❤♂Manga漫画入口一|91成人在线观看喷潮数学|美女私密㊙️调教81网站|欧美与欧洲交XXXX免费观看
04月21日|中国驻赞比亚使馆提醒中国公民做好霍乱预防|园丁被奈布开腿做❌|少妇做受❌❌高潮10在线|好爽⋯要高潮了⋯再深点男男视频|拨🍌🍌🍑男女视频
04月21日|“新中式”旅游持续升温 “国潮”澎湃中彰显文化自信|韩国人添下边视频免费|丝袜脚好紧老师别夹视|小樱扒开让鸣人|维妮娜被扒开腿做❌同人网站……
04月21日,春季养生指南,请查收!,把美女上衣扒了挠痒痒,4虎c快活影院vt4wd入口,乡村大炕日B小说,麻花传媒❌❌❌高潮
04月21日,13年来首次 土耳其总统到访伊拉克首都巴格达,久久97精品国产综合色AV网站,坐脸放屁㊙️网址视频,为所欲为漫画免费阅读下拉式爱发电,白丝袜❌美女扒开内衣电影HD
04月21日|我国自主研制首座桩基式外输原油单点投用|女学生脱个精光给男生摸|02的羞羞裸体|扒開腿灌牛奶🥛調教游戏|暴躁少女在线观看免费动漫
04月21日,“湾事通”促进“心联通”,麻衣被吸乳被❌羞羞漫画,嗯~啊吸我奶头㊙️黄漫,高清乱码🔞❌♋毛片入口,成人🔞免费视频A片视频
04月21日,焦点访谈:告别“水上漂” 开启新生活,动漫的隐私㊙️视频播放,明星❌巨大❌房乳头,Gay video XXX.com,美女被爆❌挤奶视频
04月21日,我们该如何评价火爆的“向上社交”?,国产猛男GayGayXXgv,人与野鲁❌毛片免费浪女人,歪歪漫画❤入口网站,丝袜老师扒开让我❌了一夜软件
04月21日|明星参演的影视涉诈骗,明星要担责吗?律师解读|霍雨浩把j伸进小舞屁股里小说|打屁股无内裤㊙️网站|免费漫画苹果版ios|㊙️秘密入口导航宅男
04月21日|桂林迎来2024年第一场雪 瑞雪漫天飞舞|男人把鸡大巴放进女人的屁股里|不知火舞❌爆奶水摇舌头|男女被❌免费视频软件下载|伪娘】白丝产卵(硅胶球)流出浓厚精液(润滑油
04月21日|浙江南浔:5000多亩“红美人”柑橘喜迎丰收|3d不知火舞被❌到爽流白浆|《初尝禁果》2:做爰电影|美女的裸体㊙️免费全站|舒淇早期毛片四点尽露视频
比赛中扯对手泳裤 解说:这一球真脏,原来拜财神也讲姿势的|美军从其在尼日尔的最后一个空军基地撤出|大牛彰库1|美女又爽❌又黄抠屁股|中国无套毛片学生妺女|巴西做爰XXXⅩ性视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺