马斯克点赞，Kimi论文撬动大模型“祖传地基”：Attention Residuals如何让深度学习换轨？

日期：2026-03-18 21:07:47 / 人气：29

同样的算力，同样的数据，凭什么效果不一样？大多数人直觉归因为模型更大、数据更好、工程师更厉害。但月之暗面Kimi的一篇技术报告，给出了更出人意料的答案。

3月16日，Kimi发布《Attention Residuals》（注意力残差）技术报告，针对现代大模型几乎“神圣不可侵犯”的残差连接结构进行改造，并在实验中证明：用同样算力，新方法训练的模型效果相当于基线模型花费1.25倍算力才能达到的水平。

报告发布后，硅谷顶尖AI人物纷纷点赞背书：马斯克称其“令人印象深刻的工作”，OpenAI o1主要发明者Jerry Tworek称其为“深度学习2.0”的开端，前OpenAI联创Andrej Karpathy则感慨“我们还没把‘Attention is All You Need’按字面意思理解透”。

但比起这些夸奖，更值得关注的信号是：深度学习最基础的范式，正在发生变化。

一、十年未动的“地基”：残差连接的隐忧

要理解Kimi的突破，得先回到现代大模型的“祖传地基”——残差连接（Residual Connections）。

2015年，何恺明团队的《Deep Residual Learning for Image Recognition》提出残差连接，解决了深层网络训练难题。其核心是：每一层在加工信息时，保留一条“直通道”，将原始输入原封不动加到加工结果上，让梯度反向传播时能绕过中间变换，直达底层。这一设计成为计算机视觉乃至整个深度学习的基石，沿用至今。

但残差连接有个“粗暴”缺陷：它对所有前层输出等权相加，像流水线工人被迫接受所有前序工序的等量混合原料，无法自主选择“多要第3道工序的原料”或“少要第20道的”。这导致“PreNorm稀释”问题——随着网络加深，前层输出累积，每层的贡献被稀释，越靠后的层需输出越大数值才能“被听见”，许多中间层实际沦为“摆设”。已有研究发现，删掉部分层，模型效果几乎不变，说明这些层贡献极有限。

过去十年，行业选择在残差连接上“打补丁”：优化注意力变体、改进MoE路由、调整对齐方法，但始终未触及结构本身。Kimi则选择了一条更孤独的路：用第一性原理，重新审视这个“理所当然”的设计。

二、一次优雅的“旋转”：从序列到深度的注意力移植

Kimi的核心突破，来自一个数学结构的巧妙类比。

处理文本时，RNN的“记性差”问题（早期内容被覆盖）被Transformer的注意力机制解决——通过“全文笔记”动态查询任意位置的信息。研究人员发现，残差连接在深度方向（层与层之间）的问题，与RNN在时间方向（词与词之间）的问题，数学结构完全一致。

于是，Kimi将注意力机制“旋转90度”：从处理“同一层不同词”的横向信息，转为处理“同一词不同层”的纵向信息。具体操作是：给每一层配一个“查询向量”，像工人持需求单去前序层“按需取料”，根据任务动态决定参考哪些层、参考多少。

这一改动让每层从“被动接受等权叠加”变为“主动选择信息”，且参数量增加可忽略不计。为保证训练稳定，查询向量初始为零（平等对待前序输出），随训练逐步形成偏好。

三、从理论到工程：Block AttnRes的落地智慧

全量AttnRes虽好，但大规模训练时，需存储所有层输出，内存和通信开销随层数线性增长，无法承受。Kimi的解法是Block AttnRes：将网络分块（如48B模型分8-9块，每块约6层），块内用传统残差，块间用softmax注意力。

这相当于不在每层楼装电梯，只在关键楼层架快速通道，大幅降低存储和传输开销。实验显示，分8块即可保留全量方法90%以上的性能提升。

工程实现上，团队进一步优化：
• 训练端：跨阶段缓存机制，每次切换阶段仅传输新增块数据，额外开销≤4%；

• 推理端：两阶段计算策略，打包块内查询统一处理，延迟增加≤2%。

四、实验效果：效率与性能的双重突破

实验覆盖5种规模模型，Block AttnRes在所有规模上均以更低验证损失领先基线，且优势随规模增大稳定保持。按拟合曲线推算，相同计算量下，其效果相当于基线用1.25倍算力。

在48B参数（3B激活）的Kimi Linear架构中，Block AttnRes在15项主流评测基准中全部持平或优于基线：博士级科学推理GPQA-Diamond提升7.5%，数学Math（+3.6%）、代码生成HumanEval（+3.1%）均有显著增益。

更关键的是，训练过程揭示：
• 基线模型各层输出随深度单调增大（印证PreNorm稀释）；

• AttnRes各层输出在块边界重置，梯度分布更均匀，更多层真正参与有效学习。

可视化还发现，模型学会“选择性回溯”：部分层稳定关注早期层或词嵌入输出，注意力层倾向广泛历史，MLP层依赖近邻层，符合功能分工。

此外，AttnRes改变了模型对深度与宽度的偏好：标准残差偏好“宽而浅”，AttnRes最优解偏向“窄而深”，说明其能更有效利用深度，让每层产生实质价值。

五、时代转弯：从“修修补补”到“重构地基”

Kimi的突破，不仅是技术改进，更标志着深度学习范式的转向。

杨植麟在GTC 2026演讲中透露，月之暗面同时在优化器（MuonClip，比AdamW效率提升2倍）、注意力架构（Kimi Linear，128K到百万级上下文解码加速5-6倍）、跨模态训练（Vision RL，纯文本benchmark提升2.1%）等底层战场推进，提出“Token效率×长上下文×Agent Swarms”的三维Scaling框架。

这种“重构地基”的方法论，让硅谷大佬看到了“深度学习2.0”的可能。Karpathy的感慨“Attention is All You Need未被理解透”，正是对这种底层创新的呼应。

当然，AttnRes仍有局限：实验规模（48B）未达千亿/万亿级，后训练（指令微调、RLHF）对优势的稀释效果未知。但一个仅需约100行代码改动、增加4%训练开销的轻量修改，已在48B模型上带来显著收益。当它应用于下一代更大模型时，潜力难以估量。

结语：当中国团队凿动AI地基

过去，中国AI团队的贡献多在工程落地与应用创新，底层架构理论突破相对稀缺。Kimi的论文则走了一条不同的路：统一理论框架、优雅工程实现、严谨大规模验证。

马斯克的点赞、硅谷的认可，不仅是对一项技术的肯定，更是对“重新审视基础”这一方法论的认同。当残差连接被重新设计，Adam优化器、层归一化、位置编码等“不可触碰之物”是否会迎来变革？深度学习的地基一旦被撬动，未来的故事，或许不再是线性外推能预测的了。

Attention Residuals抬高了Token效率的天花板，Kimi Linear拓展了长上下文的边界，Agent Swarms指向智能体协作的未来。当这三条技术线在下一代模型中汇合，新的范式转变，或许已在路上。

作者：恒行娱乐

马斯克点赞，Kimi论文撬动大模型“祖传地基”：Attention Residuals如何让深度学习换轨？

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →