6163银河.net163.am(中国·官方网站)-Webgame Platform
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度飙27.6倍

2025-06-01 20:13:49
来源:

猫眼电影

作者:

王懿荣

手机查看

  猫眼电影记者 刘元春 报道w3u7903ejky2ywls

在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度长期被自回归模型压制.

近日,NVIDIA 联合香港大学、MIT 等机构重磅推出Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!

论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding项目地址:https://nvlabs.github.io/Fast-dLLM论文链接:http://arxiv.org/abs/2505.22618GitHub 链接:https://github.com/NVlabs/Fast-dLLM

通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核心优势。

一、 核心技术

分块 KV 缓存与置信度感知并行解码

1. 分块 KV 缓存(Block-Wise KV Cache):激活重用率超 90% 的双向加速

传统扩散模型因双向注意力机制难以直接复用计算结果,导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制,通过以下设计实现高效计算:

双向缓存策略:采用 DualCache 同时缓存前缀(Prompt)和后缀(Masked Tokens)的注意力激活值(KV Cache),如图 1 (a)(b) 所示。在分块生成时,前序块的 KV 激活可直接复用于后续块,减少重复计算。高相似度验证:实验表明,相邻推理步骤的 KV 激活余弦相似度接近 1(图 2),证明缓存复用的可行性。例如,在 LLaDA 模型中,通过缓存可实现 90% 以上的激活重用,单步计算量显著降低。

2. 置信度感知并行解码(Confidence-Aware Parallel Decoding)

并行解码虽能提升速度,但条件独立假设易破坏 token 依赖关系,比方说这个例子 The list of poker hands that consist of two English words are: _ _.。后续两个单词可以是 “high card,” “two pair,” “full house,” 或者是 “straight flush.”。值得注意的是,这两个单词之间存在关联。

然而,MDMs 中的多令牌预测过程首先为每个令牌生成一个概率分布,然后从这些分布中独立采样。这种独立采样可能导致不理想的组合(如生成 “high house” 等无效组合)。Fast-dLLM 通过动态置信度筛选解决这一问题(所谓置信度,是指模型给 token 赋予的概率大小):

阈值激活策略:仅对置信度超过阈值(如≥0.9)的 token 进行并行解码,低置信度 token 留待后续步骤处理。如图 3 所示,该策略可在保证生成质量的前提下,并行输出多个 token。理论证明:当 (n+1)ϵ≤1 时(n 为并行解码 token 数,并且并行解码的 n 个 token 的置信度都大于 1-ϵ),贪婪解码策略下并行解码与顺序解码结果一致,从数学层面确保了生成逻辑的连贯性。

3. 伪代码:分块 KV 缓存与置信度感知并行解码流程

以下是 Fast-dLLM 算法的核心伪代码,结合了分块 KV 缓存以及置信度感知并行解码,无需训练就可以在现有的开源 Diffusion LLM(如 LLaDA、Dream)上即插即用进行推理加速。

二、 性能突破

速度与精度的均衡优化

1. 长文本生成:27.6 倍端到端加速

在 LLaDA 模型上,针对 1024 token 的长文本生成任务,Fast-dLLM 将单步延迟从 0.26 秒降至 0.09 秒,整体耗时从 266 秒压缩至 12 秒,实现 27.6 倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著,例如 8-shot 提示的 GSM8K 任务中,加速后仍能保持 76% 的准确率。

2. 精度保持:损失 < 2% 的基准测试表现

在主流基准测试中,Fast-dLLM 的准确率损失控制在 2% 以内:

GSM8K(5-shot):LLaDA+Fast-dLLM 准确率为 78.5%,仅比基线低 0.8%,但吞吐量提升 8.1 倍(图 5)。HumanEval(代码生成):准确率达 44.5%,较基线提升 1.2%,同时吞吐量提升 3.7 倍。多模型兼容:在 LLaDA、Dream 等模型上均实现高效加速,验证了技术的通用性。

三、 应用价值

无需训练的即插即用方案

Fast-dLLM 的零训练成本特性使其成为理想的推理优化工具,能够快速集成到现有的系统中。对于那些已经在使用扩散模型的企业和开发者来说,可以在不改变模型架构和训练流程的基础上,直接利用 Fast-dLLM 提升推理效率,缩短长文本生成耗时,为实际部署提供更可行的方案。

四、 总结与展望

Fast-dLLM 通过分块 KV 缓存与置信度感知并行解码的创新组合,实现了扩散模型推理效率的跨越式提升,同时保持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式,有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。未来,随着模型规模的扩大和蒸馏技术的深化,Fast-dLLM 或将进一步缩小与自回归模型的性能差距,成为 LLM 推理加速的核心方案之一。

 时事1:TikTok成人版下载免费污

  06月01日,百位专家将合力编撰《特应性皮炎365问》,

  安全!让我们从校园做起,安全!让我们每一生从自身做起!

,美女被❌到爽🔞流触手视频。

  06月01日,“五一”期间天津重点监测企业客流量同比增13.4%,

网站董事长致辞 篇21

,汤姆维的色角,18禁全彩肉肉无遮挡无码游戏苹果,扒开徐伦疯狂揉❌难受。

 时事2:14美女裸体㊙️洗澡视频

  06月01日,习近平视察信息支援部队,

  飞蛟已经发不出声音,满身鳞片一瞬间就失去了光泽,它恐惧到了极点,精气神都在快速消失,浑身簌簌颤抖。

,二次元大球球上下晃动,男同❌无尽❌高潮,Zoo Sex woman HD。

  06月01日,天津武清至北京亦庄将增开高铁班次 助力两地通勤新体验,

  我们党在领导革命、社会主义现代化建设和改革开放的过程中,历来是十分重视干部队伍的思想作风建设的。我们可以简单地回顾一下,如果没有不怕牺牲、敢于胜利的作风,我们党就不能赢得万里长征、抗日战争和解放战争的胜利,就不能赢得新中国的建立;如果没有开拓创新、求真务实的作风,社会主义建设就不能取得今天这样辉煌的成就,改革开放事业就不会有今天这样的局面。近年来,我们开发区发展迅猛,取得的一个又一个成就,这与全区上下发扬真抓实干、埋头苦干的工作作风分不开的。

,3D动漫云缨被❌羞羞网站,汤姆维的姐姐电影,㊙️裸男。

 时事3:刘亦菲裸体一丝不留裸

  06月01日,湖南祁阳“蓝衣姐姐”守护急救生命线,

  推进城市建设,不断提升城市品位,是加快嘉荫经济发展的有效途径,是提高群众生活质量的重要保障,是营造优良投资环境的必然选择,是实现“北方边陲名城、和谐文明城市”建设目标的有力措施。近年来,我县在全市率先进行城镇总体规划修编,城市框架全面拉开,城市功能不断完善,城市形象发生了巨大变化。但是与发展的要求、群众的期盼以及沿江县市咄咄逼人的发展态势相比,我们的城市建设力度还需要进一步加大,品位需要进一步提升,大量的城市基础设施还需要进一步完善。重抓城市建设仍然是当前和今后一段时期全县重点推进的工作。对此,我们要从以下三个方面进一步统一思想,提高认识,凝聚加强城市建设的共识:

,女人浴室光屁股洗澡视频,亚洲 动漫 黄游 3D XX,曰本美女做爰XXXⅩa高潮喷水。

  06月01日,中方:愿同国际伙伴一道,支持科摩罗维持社会稳定,

  “大娘,鸾鸟在哪里?”小不点好奇的问道,同时有些不解,来到庄园后,他们径直进入一片地宫中。

,国产农村熟妇出轨videos,3–12呦女,成人叼嘿视频网站免费下载。

 时事4:脱裤子❌打屁屁站91

  06月01日,(两会速递)国家体育总局局长:坚决惩治体育领域腐败,

  二是作风不实。 就镇干部来讲,主要存在着:少数同志工作无原则,怕触及矛盾,怕得罪人,遇到问题绕道走;少数同志作风不实,工作深不进、沉不下、浮在表面,做事只开头,不收尾,往往每做一件事,都要留下一系列的后遗症;少数同志专门研究处世哲学,考虑到怎么拉关系,结人缘,习惯做表面文章,领导在是一个样,领导不在是一个样; 少数同志热衷于搬弄是非,搬弄领导与下属的是非,搬弄领导与领导之间的是非,搬弄同志与同志之间的是非;有的人在工作中热衷于当“观察家”,做“评论员”,总喜欢对人家做人做事评头论足;有的人热衷于散布小道消息,一天到晚饱食终日,不知干什么事,无事生非,造谣生事。 少数同志心态不正,心里总有怨气,总是这也看不惯,那也不顺眼,把党委、政府的决定,当作耳边风;还有少数同志,工作不思进取,上班时间不长,但不良风气学得很多,政策不学、业务不钻、图享受、怕吃苦。

,❌❌❌美女裸体隐私视频,娇小6一10ⅹⅹⅹⅹⅹ小泬,米塔被❌到爽🔞流下载。

  06月01日,文化中国行·文博日历丨春节的仪式感如何演变而来?一图读懂,

  还好,这里距离石村不是很远,还处在相对安全的区域,并没有接近到大山中那些危险凶物的活动范围内。

,国产➕喷水➕白浆➕在线看,多强被❌c到爽🔞H真人,51漫画❌黄漫免费网站。

责编:阿特托

审核:朱云

责编:陶德权

相关推荐 换一换