近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传统 Transformer 架构逐渐暴露出缺陷,尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时,Transformer 常常因过度关注无关上下文而陷入困境,导致模型表现受限。
为攻克这一难题,来自微软和清华的研究团队提出了DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。
论文标题:Differential Transformer论文链接:https://openreview.net/pdf?id=OvoCm1gGhN代码链接:https://aka.ms/Diff-Transformer
其核心思想是通过计算两组 Softmax 注意力图的差值来放大对关键上下文的关注,同时消除注意力噪声干扰。DIFF Transformer 具备以下显著优势:
在语言建模任务中,DIFF Transformer 在模型大小、训练 token 数量等方面展现出了卓越的可扩展性,仅需约 65% 的模型规模或训练 token 数量即可达到与传统 Transformer 相当的性能,大幅提升了语言模型通用表现。
在长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等一系列任务中,DIFF Transformer 展现了独特优势,相比传统 Transformer 有显著提升。
DIFF Transformer 的特性使其在自然语言处理领域具有广阔的应用前景,有望成为推动语言模型发展的新动力。此外,已有跟进研究初步验证方法在视觉、多模态等领域中的有效性,显示出其跨模态通用的潜力。该研究已被 ICLR 2025 接收,并获选为 Oral 论文(入选比例 1.8%)。
方法
本文提出了一种名为 Differential Transformer(DIFF Transformer) 的基础模型架构,旨在解决传统 Transformer 在长文本建模中对无关上下文过度分配注意力的问题。该方法通过差分注意力机制(Differential Attention)放大对关键上下文的关注,同时消除注意力噪声,从而显著提升模型在多种任务中的性能。
差分注意力机制
传统 Transformer 的注意力机制通过 Softmax 函数对输入序列中的不同 token 进行加权,但 Softmax 的性质导致模型难以完全消除无关上下文的影响。为了克服这一问题,DIFF Transformer 引入了差分注意力机制。
具体而言,该机制将查询向量(Query)和键向量(Key)在注意力头(Head)维度分为两组,分别计算两组的 Softmax 注意力图,然后计算两者的差值作为最终的注意力分数。这一设计类似于电子工程中的差分放大器,以及降噪耳机,通过两组信号相减以消除共有噪声。
差分注意力的数学表达如下:
图 2. Transformer 与 DIFF Transformer 注意力分数分布可视化
图 2 展示了 DIFF Transformer 和传统 Transformer 在注意力分数分配上的显著差异。作者将一段关键信息插入大段不相关文本的中间位置,并对模型抽取关键信息时的注意力分数分配进行可视化。
传统 Transformer 的注意力分数被广泛分配到整个上下文中,只有极少分数分配至关键信息;而 DIFF Transformer 能够将更高的分数集中在目标答案上,并且几乎不向无关上下文分配注意力。
注意力分数分配的稀疏性与精准性也使得 DIFF Transformer 在处理长文本关键信息检索任务时显著优于 Transformer。
实验
作者通过一系列实验验证了 DIFF Transformer 在多个方面的卓越性能,证明了其在大语言模型中应用的独特潜力与优势。
语言建模
作者研究了 DIFF Transformer 在扩展模型规模和训练数据量时的性能,如图 3 所示。实验表明,DIFF Transformer 仅需约 65% 的参数规模或训练数据量即可达到与 Transformer 相当的语言建模性能。例如,6.8B 参数规模的 DIFF Transformer 在语言建模损失上与 11B 参数规模的 Transformer 相当。
图 3. 语言建模上的模型参数、训练数据量可扩展性实验
长文本建模
作者将模型扩展到 64K 上下文长度,并在长文本书籍数据上进行了评估。结果显示,考虑累积平均负对数似然(NLL)指标, DIFF Transformer 在不同序列位置上均优于 Transformer,能够更有效地利用长上下文信息。
图 4. 长文本书籍数据模型性能评估
关键信息检索
作者通过「多针检索」(Multi-Needle Retrieval)实验评估了模型从大量上下文中提取关键信息的能力,如图 5 所示。实验表明,DIFF Transformer 在不同上下文长度和答案深度下均表现出更高的准确率,尤其是在文本较长以及答案位于文本更靠前位置时,优势更为明显。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度时的准确率比 Transformer 高出 76%。此外,统计信息显示,DIFF Transformer 在注意力分数分配上也表现出更高的聚焦能力,能够准确定位关键信息,并展现了更高的信噪比。
图 5. 多针检索评估
上下文学习
作者从两个角度评估了 DIFF Transformer 的上下文学习能力:多样本上下文学习和样本顺序鲁棒性测试。 如图 6 所示,在多样本上下文学习任务中,作者使用了 4 个不同的数据集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例数量,直到总长度达到 64K tokens。结果显示,DIFF Transformer 在不同数据集上均优于 Transformer,平均准确率提升显著。
图 6. 多样本上下文学习
在鲁棒性测试中,作者通过打乱示例顺序的方式评估了模型的性能稳定性。如图 7 所示,DIFF Transformer 在不同示例排列下的性能方差显著低于 Transformer,表明其对输入顺序的敏感性更低,具有更强的鲁棒性。
图 7. 样本顺序鲁棒性测试
幻觉评测
作者利用文本摘要和问答任务作为两个典型的幻觉评测场景,评估了 DIFF Transformer 在降低大模型幻觉(hallucination)方面的表现。结果如图 8 所示,DIFF Transformer 在生成摘要和回答问题时显著提升了准确率,减少了幻觉现象。这是因为差分注意力机制能够准确定位重要文段,避免无关上下文对模型预测的干扰。
图 8. 利用文本摘要、问答任务进行幻觉评测
异常激活值分析
作者还发现 DIFF Transformer 能够显著减少模型激活中的异常值,这为模型激活值的量化提供了新的可能性。实验表明,DIFF Transformer 在注意力激活值(attention logits)和隐藏状态(hidden states)中的最大激活值显著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用这一性质,DIFF Transformer 在注意力激活值的低比特量化下的性能也优于 Transformer,如图 9 所示。
图 9. 注意力激活值的低比特量化
数学推理能力
作者在数学推理任务上进一步验证了 DIFF Transformer 的性能。作者采用两阶段训练,在 3B 预训练模型的基础上进行有监督微调,并在 MATH 等 8 个数学数据集上评测模型性能。在第一阶段,采用 20B token 合成数学数据对模型进行微调,使模型获得基础数学能力,评测结果如图 10 所示。从 15B token 开始,DIFF Transformer 展现出了显著优于 Transformer 的数学能力,至 20B token 结束的时候,准确率的差距达到了 11% 左右。
图 10. 第一阶段数学合成数据微调
在第二阶段,作者利用 Deepseek-R1 输出所构造的数据集 OpenThoughts-114K-Math 对模型进行蒸馏,使模型更强大的深度推理能力。如图 11 所示,在 8 个数据集上,DIFF Transformer 相较 Transformer 均有不同程度的提升,平均准确率提升了 7.5%,这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重要。
图 11. 第二阶段深度推理能力评测
讨论与未来工作
DIFF Transformer 自发布以来获得了较大关注与讨论。作者在Hugging Face论文讨论平台、alphaXiv平台上与社区开展了深入的探讨。在 X 平台(原 Twitter)上,Google DeepMind 高级研究科学家(Senior Staff Research Scientist)Petar Veličković与作者就文章中的理论分析展开讨论,ViT 核心作者Lucas Beyer也在阅读文章后撰写了一篇深入的论文总结,相关发帖已获得数十万浏览。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 库中。
Hugging Face:https://huggingface.co/papers/2410.05258alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1Petar Veličković:https://x.com/PetarV_93/status/1874820028975267866Lucas Beyer:https://x.com/giffmana/status/1873869654252544079transformers库:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama
未来工作方面,作者认为可以利用 DIFF Transformer 的性质设计低比特注意力算子,以及利用差分注意力的稀疏特性进行键值缓存(key-value cache)的剪枝。此外,将 DIFF Transformer 应用在除语言以外的其他模态上也值得探索。近期工作DiffCLIP将差分注意力扩展至视觉、多模态领域,揭示了 DIFF Transformer 在不同模态任务中的更多结构特性与应用潜力。
DiffCLIP:https://arxiv.org/abs/2503.06626
总结
本文的贡献主要在两个方面:
(1)DIFF Transformer 通过创新的差分注意力机制,有效解决了传统 Transformer 在处理文本时受到噪声干扰、注意力分配不准确的问题;
(2)凭借对关键信息的关注和对噪声的抵御能力,DIFF Transformer 在语言建模、长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等任务中表现出色,有望在自然语言处理、多模态等领域作为基础模型架构。
《男生互摸jiji秘视频网站》,《w3u7903ejky2ywls》XXX18🍆🍅kino
“人妖自慰出精汇编”
敌伦交换一区二区三区的背景故事
……
04月29日
“77v7vcc的图片”免签后韩国流行周末游中国
↓↓↓
04月29日,报告:绿色建筑有望释放1.8万亿美元市场机遇,二次元cos被❌到爽羞小说,体育生手冲视频素材,美女🈲🈲流浆❌❌水,貂蝉扒下脱裙子撅屁股照片
04月29日,青藏高原地区胸痛大会举办 专家冀胸痛中心2.0版加速覆盖,欧美老妇肥唇BBB,无码熟妇人妻av久久久一区二区,tude日本🇯🇵9,国产杨晨晨AV福利视频
04月29日,两岸黄姓宗亲武汉江夏寻根祭祖共话乡谊,伊莉雅调教受辱h文,甘雨裸体❌开腿涩涩,揉我胸⋯啊⋯嗯出奶了黄,3D动漫同人18❌动漫88AV
04月29日|西藏岗巴县岗巴镇雪村:过上喜气“羊羊”的好日子|太深⋯拔出来⋯痛太舒要尿了动漫|日本无遮挡裸光屁股打屁屁|火影小南被❌吸乳视频色情|疯狂自慰爽www看片
04月29日|快餐车“开”进北京地铁站,通勤路上也有烟火气|黄金仓库huck9最新版本更新内容|肉体⋯粗喘娇吟美杜莎|有看小电影的公众号吗|80岁老太太对小伙又送吃的
04月29日|钢琴家郎朗获聘浙江省第二届反诈宣传形象大使|欧洲sen性|Chinese高龄老太70|99国产精品欲AV喷水|天然冰透🈵️色满肉樱花粉手……
04月29日,海警法施行三周年:海上接处警45701起 侦破走私案件1803起,原神人物被❌黄漫免费软件,少妇妓院1982,黄泉裸乳被❌涩涩在线观看,成人无码免费sm
04月29日,互联网平台不能成为“卖药江湖”,FC2PPV个人撮影无修正,精品码产区一区二,女学生脱个精光给男生摸,乖~腿打开一点我轻一点漫画入口
04月29日|实探郑州书院街墓地考古现场:早于殷墟王陵近200年|万叶顶散兵生殖部为|夫妻论坛原创投稿|🇨🇳性老太|女初高中打屁股♥网站✕
04月29日,15国驻华外交官参访海南探寻合作新机遇,u蓝正太视频破解v3.0.8更新内容,弱音裸身被❌❌羞羞视频,🈚️码17c在线,p站码无精品㊙️入口
04月29日,水往高处流!宁夏扬黄河水逆势向上让戈壁沙漠变良田绿洲,免费➕无码➕日本在线看爱的漩涡,美女的内部🈲黄网腿精,动漫美女❌喷牛奶18禁视频,动漫女仆被❌羞羞嗯小说
04月29日,北美票房|《特技狂人》开画表现不及预期,17shortstory绝望古堡,雪姨沈晓雅的第一次电视剧叫什么,学生小小泬性XXX,顶级少妇高潮喷水流出白浆
04月29日|国家消防救援局:严禁在人员密集场所的门窗设置障碍物|周防有希同人18❌本子在线看|美杜莎被❌到爽被爆视频|雏田爆乳被秘视频3D|3d动漫XXX美女啪啪free
04月29日|“读懂中华民族:多元一体与共同发展”国际研讨会举行|日本少妇❌❌❌www|静香屁股眼㊙️漫画免费|永久免费🔞🔞🔞未满sp|大胸❌挤奶❌动漫❌狂揉
04月29日|通讯:“塞外西湖”乌篷船与红嘴鸥亲密接触记|老头和大爷性猛交69|老爷趴在两腿中间吸我奶头视频|секс 6′|爽好大快深点小雄秘视频
惜花芷,黄执中 看不出杨子是做过一天实事的人|广西已建成36条出省出海出边高速公路通道|好大⋯用力⋯深一点尿进去了|女人与牛ZZZZO0交酡全过程|腾讯涩漫免费网站下载|自慰被❌到爽🔞流网站小斌
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺