6163银河.net163.am(中国·官方网站)-Webgame Platform
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方

2025-05-05 02:44:29
来源:

猫眼电影

作者:

马灿灿

手机查看

  猫眼电影记者 张万德 报道w3u7903ejky2ywls

作者 | summer邮箱 | huangxiaoyi@pingwest.com

在所有人都在猜测DeepSeek V4或者R2和Qwen3谁先到来时,Qwen3发布了。

4月29日凌晨,阿里巴巴开源了新一代通义千问Qwen3系列模型,涵盖8款不同尺寸。其中,旗舰模型Qwen3 235B采用混合专家(MoE)架构,总参数量235B(仅为DeepSeek-R1的1/3),激活参数仅需22B,预训练数据量达36万亿Tokens。

性能上,据官方介绍,Qwen3在多项测评中表现优异,超越DeepSeek-R1、OpenAI-o1等主流模型,成为当前性能领先的开源大语言模型。

具体来看,Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强:在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

看惯了模型榜单表现上的反复超越,但这次的Qwen3还有些不同,比起单纯的模型边界突破,Qwen3更想突出的是以小博大的能力。而且它在和DeepSeek轮流推动开源模型进步的过程中,再次给开源社区提供了与R1不同的配方。

1

没完全用R1的方法,但完成了对R1的超越

和R1类似的是,Qwen3也走的是“用模型训模型”的思路。

在预训练阶段,Qwen3的性能优化很重要的一个来源是大量高质的合成数据。

数量上看,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在 18 万亿个 token 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 token,涵盖了 119 种语言和方言。其中一部分来自于PDF文档提取信息,另一部分就是Qwen2.5系列模型合成的数据。

技术报告中明确提到,“我们使用 Qwen2.5-VL 从这些文档中提取文本,并用 Qwen2.5 改进提取内容的质量。为了增加数学和代码数据的数量,我们利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。”

这也意味着,在预训练的过程中,Qwen3借助自身的生态优势,又构建了一个自我迭代提升的数据系统。

预训练奠定了Qwen3的基础能力,而在此基础上的后训练阶段则是Qwen3最为关键的技术创新,它通过多阶段训练方法实现了推理能力与直接回答能力的融合。

以上图为例,同一模型内实现了思考和非思考模式。在官方的应用界面来看,选择哪种模式的方法看起来还是让用户自己选择,不过在选择了深度思考模式后,用户多了一个设置思考预算的功能,让模型根据问题难度动态分配。

在后训练上,Qwen3用了和R1整体pipeline类似的的“回锅肉”式迭代:微调、RL、再微调,然后再更具体的RL。

它和DeepSeek一样用大模型蒸馏小模型,不过Qwen彻底是自己蒸馏自己了。

另一个特别值得注意的是,第二阶段RL,Qwen团队采用的是基于规则的奖励来增强模型的探索和钻研能力。

“第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。”官方博客写到。这与当前被认为是DeepSeek R1等模型成功关键的GRPO(基于结果奖励的优化)形成鲜明对比。Qwen3没有完全依赖GRPO这样基于结果的奖励机制。

紧接着,在第三阶段的微调中,Qwen3采用了一份长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,实现了将非思考模式整合到思考模型中,确保了推理和快速响应能力的无缝结合。

最后,在第四阶段,Qwen3在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习。

Qwen3没有完全用R1的方法,但完成了对R1的超越。

1

模型全尺寸,但参数正在“变小”

和Qwen此前的生态路线一样,Qwen3一口气发布了8款不同的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斩获同尺寸开源模型SOTA(最佳性能)。

这次的全尺寸,果然没有让期待已久的社区失望,欢呼声一片。

MLX 是专为 Apple Silicon设计的高效机器学习框架。在模型发布前,MLX的团队就完成了对Qwen 3的支持工作。其中0.6B和4B可以应用于手机,8B、30B、30B MOE可用于电脑......

尺寸全是一方面。更重要的是Qwen在不断以更多、更小的尺寸,达到过去更大尺寸同样的性能效果。在很多场景下,模型都具备了在端侧运行的能力和水平。

据官方博客显示,Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能;Qwen3的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如32B版本的Qwen3模型可跨级超越Qwen2.5-72B性能。

Qwen3显然是个能让开源界好好把玩和拆解一段时间的最热门模型,接下来它更全面的技术报告发布后,估计会揭秘更多“独家配方”,继续推动开源模型的进步和创新。

点个 “爱心”,再走吧

 时事1:⚠️妖精动漫sss入口

  05月05日,厦门港首条“大三通”跨境电商海运快线搭建起两岸经贸合作新桥梁,

  族中的首领大吼,所有勇士齐出,弯弓向天,一只只铁箭呼啸而上,飞入高天,的确有部分猛禽中箭,哀鸣着坠落下来。

,98AV。

  05月05日,第六届“翱翔贵州”滑翔伞首站赛事落幕,

  中秋节走亲访友要注意饮食卫生,注意不要暴饮暴食,外出时要注意食物、饮水及环境的卫生安全状况,坚决不买无牌无证小摊档的垃圾食物。

,㊙️❌女高清🔞,猎奇 重口 虐杀 血腥 肢解,男人的洗澡㊙️视频播放。

 时事2:亚洲人 青少年 掀裙 撒尿

  05月05日,港科大与中国气象局签署合作框架协议 共推气象科学创新,

  尊敬的老师、各位家长朋友们:

,扒开老师❌❌❌蘑菇视频,失禁…顶弄…触手男男,国产清纯女学生被弄高。

  05月05日,福建连城冠豸山风景秀美引游人,

  那庞大躯体超过云层、耸立在天地间的凶兽,眸子碧幽幽,如两个湖泊般,冰冷的开口,道:“妇人之仁!”

,龙珠3d同人18❌羞羞漫画免费,男女扒开双腿猛进入爽爽免费,色www.my1169.com。

 时事3:国产福利姬G奶紧身包臀裙

  05月05日,新疆公安机关迅速启动地震救援排险工作,

  到了这个时候,沟通了无垠虚空,从当中淬炼天地神髓,等于让自己体内符文神力暴涨,远胜以往,自然会极度强大。

,舞蹈生压腿不小心尿了,麻豆国产AV无码免费,欧美Gay男男激情videos。

  05月05日,国务院关于《宁波市国土空间总体规划(2021—2035年)》的批复,

  然而,此时小不点却降服了一头,就这样背着,飕飕跑来,美丽的湖泊边上一群饮水的珍禽异兽都惊愕,抬起头来,不可思议的望着。

,色❌❌网站,阿米娅病狂❌喷水自慰小说,jc243jc。

 时事4:推特r8特别版

  05月05日,聚焦农机社会化服务 业者探讨社会力量如何助力,

  远处,观战众人如遭锤击,皆身体剧震,不由自主倒退,稍近的一些人更是嘴角溢血,呼吸都要停止了,忍不住要膜拜下去。

,学生精品videosex极品,丰满奶大肉诱妇HD高潮,琳妮特裸体❌开腿羞羞视频。

  05月05日,【中国少年说·可爱的中国】00后网球“金花”绽放红土场,薪火相传创造历史,

  天色一下子黑暗了下来,仿佛一瞬间就陷入了黑夜,伸手竟不能见五指,而事实上这一刻应该是白天才对。

,www.红桃视频.com,极品美女裸体甩奶舞免费网站,偷看❌❌洗澡❌❌网站。

责编:刘宇嘉

审核:范照兵

责编:夏尔巴

相关推荐 换一换