马斯克点赞,Kimi论文撬动大模型“祖传地基”:Attention Residuals如何让深度学习换轨?
日期:2026-03-18 21:07:47 / 人气:6

同样的算力,同样的数据,凭什么效果不一样?大多数人直觉归因为模型更大、数据更好、工程师更厉害。但月之暗面Kimi的一篇技术报告,给出了更出人意料的答案。
3月16日,Kimi发布《Attention Residuals》(注意力残差)技术报告,针对现代大模型几乎“神圣不可侵犯”的残差连接结构进行改造,并在实验中证明:用同样算力,新方法训练的模型效果相当于基线模型花费1.25倍算力才能达到的水平。
报告发布后,硅谷顶尖AI人物纷纷点赞背书:马斯克称其“令人印象深刻的工作”,OpenAI o1主要发明者Jerry Tworek称其为“深度学习2.0”的开端,前OpenAI联创Andrej Karpathy则感慨“我们还没把‘Attention is All You Need’按字面意思理解透”。
但比起这些夸奖,更值得关注的信号是:深度学习最基础的范式,正在发生变化。
一、十年未动的“地基”:残差连接的隐忧
要理解Kimi的突破,得先回到现代大模型的“祖传地基”——残差连接(Residual Connections)。
2015年,何恺明团队的《Deep Residual Learning for Image Recognition》提出残差连接,解决了深层网络训练难题。其核心是:每一层在加工信息时,保留一条“直通道”,将原始输入原封不动加到加工结果上,让梯度反向传播时能绕过中间变换,直达底层。这一设计成为计算机视觉乃至整个深度学习的基石,沿用至今。
但残差连接有个“粗暴”缺陷:它对所有前层输出等权相加,像流水线工人被迫接受所有前序工序的等量混合原料,无法自主选择“多要第3道工序的原料”或“少要第20道的”。这导致“PreNorm稀释”问题——随着网络加深,前层输出累积,每层的贡献被稀释,越靠后的层需输出越大数值才能“被听见”,许多中间层实际沦为“摆设”。已有研究发现,删掉部分层,模型效果几乎不变,说明这些层贡献极有限。
过去十年,行业选择在残差连接上“打补丁”:优化注意力变体、改进MoE路由、调整对齐方法,但始终未触及结构本身。Kimi则选择了一条更孤独的路:用第一性原理,重新审视这个“理所当然”的设计。
二、一次优雅的“旋转”:从序列到深度的注意力移植
Kimi的核心突破,来自一个数学结构的巧妙类比。
处理文本时,RNN的“记性差”问题(早期内容被覆盖)被Transformer的注意力机制解决——通过“全文笔记”动态查询任意位置的信息。研究人员发现,残差连接在深度方向(层与层之间)的问题,与RNN在时间方向(词与词之间)的问题,数学结构完全一致。
于是,Kimi将注意力机制“旋转90度”:从处理“同一层不同词”的横向信息,转为处理“同一词不同层”的纵向信息。具体操作是:给每一层配一个“查询向量”,像工人持需求单去前序层“按需取料”,根据任务动态决定参考哪些层、参考多少。
这一改动让每层从“被动接受等权叠加”变为“主动选择信息”,且参数量增加可忽略不计。为保证训练稳定,查询向量初始为零(平等对待前序输出),随训练逐步形成偏好。
三、从理论到工程:Block AttnRes的落地智慧
全量AttnRes虽好,但大规模训练时,需存储所有层输出,内存和通信开销随层数线性增长,无法承受。Kimi的解法是Block AttnRes:将网络分块(如48B模型分8-9块,每块约6层),块内用传统残差,块间用softmax注意力。
这相当于不在每层楼装电梯,只在关键楼层架快速通道,大幅降低存储和传输开销。实验显示,分8块即可保留全量方法90%以上的性能提升。
工程实现上,团队进一步优化:
• 训练端:跨阶段缓存机制,每次切换阶段仅传输新增块数据,额外开销≤4%;
• 推理端:两阶段计算策略,打包块内查询统一处理,延迟增加≤2%。
四、实验效果:效率与性能的双重突破
实验覆盖5种规模模型,Block AttnRes在所有规模上均以更低验证损失领先基线,且优势随规模增大稳定保持。按拟合曲线推算,相同计算量下,其效果相当于基线用1.25倍算力。
在48B参数(3B激活)的Kimi Linear架构中,Block AttnRes在15项主流评测基准中全部持平或优于基线:博士级科学推理GPQA-Diamond提升7.5%,数学Math(+3.6%)、代码生成HumanEval(+3.1%)均有显著增益。
更关键的是,训练过程揭示:
• 基线模型各层输出随深度单调增大(印证PreNorm稀释);
• AttnRes各层输出在块边界重置,梯度分布更均匀,更多层真正参与有效学习。
可视化还发现,模型学会“选择性回溯”:部分层稳定关注早期层或词嵌入输出,注意力层倾向广泛历史,MLP层依赖近邻层,符合功能分工。
此外,AttnRes改变了模型对深度与宽度的偏好:标准残差偏好“宽而浅”,AttnRes最优解偏向“窄而深”,说明其能更有效利用深度,让每层产生实质价值。
五、时代转弯:从“修修补补”到“重构地基”
Kimi的突破,不仅是技术改进,更标志着深度学习范式的转向。
杨植麟在GTC 2026演讲中透露,月之暗面同时在优化器(MuonClip,比AdamW效率提升2倍)、注意力架构(Kimi Linear,128K到百万级上下文解码加速5-6倍)、跨模态训练(Vision RL,纯文本benchmark提升2.1%)等底层战场推进,提出“Token效率×长上下文×Agent Swarms”的三维Scaling框架。
这种“重构地基”的方法论,让硅谷大佬看到了“深度学习2.0”的可能。Karpathy的感慨“Attention is All You Need未被理解透”,正是对这种底层创新的呼应。
当然,AttnRes仍有局限:实验规模(48B)未达千亿/万亿级,后训练(指令微调、RLHF)对优势的稀释效果未知。但一个仅需约100行代码改动、增加4%训练开销的轻量修改,已在48B模型上带来显著收益。当它应用于下一代更大模型时,潜力难以估量。
结语:当中国团队凿动AI地基
过去,中国AI团队的贡献多在工程落地与应用创新,底层架构理论突破相对稀缺。Kimi的论文则走了一条不同的路:统一理论框架、优雅工程实现、严谨大规模验证。
马斯克的点赞、硅谷的认可,不仅是对一项技术的肯定,更是对“重新审视基础”这一方法论的认同。当残差连接被重新设计,Adam优化器、层归一化、位置编码等“不可触碰之物”是否会迎来变革?深度学习的地基一旦被撬动,未来的故事,或许不再是线性外推能预测的了。
Attention Residuals抬高了Token效率的天花板,Kimi Linear拓展了长上下文的边界,Agent Swarms指向智能体协作的未来。当这三条技术线在下一代模型中汇合,新的范式转变,或许已在路上。
作者:恒行娱乐
新闻资讯 News
- 得癌少痴呆、痴呆少患癌……奇特...03-18
- 没有了刘国梁的WTT,还能继续...03-18
- 动员人海入局,京东意在“炼丹”...03-18
- 屈田终于松口,和我们聊了那笔50...03-18

