2015年ResNet发明残差连接,2017年Transformer直接继承,此后11年几乎无人重新审视。 Kimi 团队用一篇论文,把注意力机制「旋转90度」重写了这块地基—— 马斯克、Karpathy 相继点赞,中国 AI 团队罕见地获得硅谷底层架构层面的实质认可。
大模型每一层处理信息时,标准残差连接把所有历史层信息等权累加—— 第1层和第40层的声音一样大,早期的关键信息随着层数增加被逐渐稀释。 Kimi 的 Attention Residuals(AttnRes) 用一个可学习的 softmax 注意力替代这个固定加法: 每一层现在会「主动回头看」,动态决定哪些历史层信息最有用。 工程优化版(Block AttnRes)训练成本增加不超过 4%、推理延迟不超过 2%, 却等效于基线模型用 1.25 倍算力 才能达到的性能。 15 项下游基准全面持平或超越,多步推理任务(GPQA-Diamond)提升 +7.5%。
ResNet 2015 年提出残差连接,Transformer 2017 年直接继承, 此后 11 年无人重新审视。 论文发现深度维度存在与时序维度完全对称的固定权重累加问题, 而这个问题在时序维度已被注意力机制解决——只是没人把解法「旋转 90 度」。
Full AttnRes:每层 softmax 注意力访问所有历史层(理论最优,内存 O(Ld))。
Block AttnRes:分 N≈8 个块,块内传统残差、块间注意力聚合,
内存降至 O(Nd),含三项工程优化(跨阶段缓存 / 两阶段推理 / 序列分片预填充),
代码改动仅约 100 行。
这不是「打破 Transformer」,而是发现了被忽视 11 年的对称性: 时序维度的固定累加问题用注意力解决了(RNN→Transformer), 深度维度的同类问题从未被同样方式解决过(AttnRes 是第一个)。 「Attention is All You Need」中的 All,终于覆盖了深度方向。
最大验证规模仅 48B 参数,千亿级效果未知; 核心代码未完全开源(仅伪代码); 后训练(RLHF/SFT)阶段收益未公开; 「深度学习 2.0」等评价有炒作成分, 需将技术价值与融资时间点的舆论价值分开评估。
ResNet 2015 → Transformer 2017,残差连接原样继承,此后几乎无人质疑
现代大模型(GPT、Claude、DeepSeek、Kimi……)的底层架构都是 Transformer。 Transformer 之所以能训练到几十甚至上百层而不崩溃,靠的是何恺明 2015 年在 ResNet 中提出的 残差连接(Residual Connection)。 2017 年《Attention is All You Need》发表时,直接沿用了这个设计——没有改动,没有审视。
这个问题与 RNN 在序列维度上的困境高度对称:RNN 在时间维度用固定权重累加,导致长程依赖难以捕捉;
后来 Transformer 用注意力机制解决了时序维度的问题。
Kimi 团队的发现是:深度维度上的同类问题,11 年来从未用同样的思路解决过。
而那个「旋转 90 度」的机会,一直就摆在那里。
时序-深度对偶性理论 + Full / Block AttnRes + 三项工程优化
论文用结构化矩阵分析证明: 所有标准残差连接的变体(Highway Networks、DeepNet、Scaled Residuals 等), 本质上都是「深度维度上的线性注意力」。 这一发现把过去十年的残差研究统一在同一框架下,同时指出了升级方向—— 把「深度线性注意力」升级为「深度 softmax 注意力」。
每层都用 softmax 注意力访问所有之前层的输出。理论最优,内存开销 O(Ld),小规模训练无额外开销。
将 L 层分成 N 个块(通常 N≈8),块内传统残差,块间用注意力聚合。内存从 O(Ld) 降至 O(Nd), 训练增加 <4%,推理增加 <2%。
Scaling Law 验证 + 48B 模型下游任务 + 架构偏好分析
在 5 个模型规模(194M~528M 激活参数)上验证 Scaling Law 曲线:
Block AttnRes:L = 1.870 × C⁻⁰·⁰⁵⁸
基线:L = 1.891 × C⁻⁰·⁰⁵⁷
相同计算预算下,Block AttnRes 相当于基线用 1.25 倍算力 才能达到的效果。
在固定计算量的 25 个架构配置网格搜索中:
AttnRes 能更有效地利用额外的深度,说明它从根本上改变了「深度增益」的天花板。
Musk 主动点赞 · Karpathy 深度评论 · 中国 AI 团队少见地获得底层架构层面实质认可
月之暗面同期宣布新一轮 10 亿美元融资推进中(投前估值 180 亿美元),3 个月内估值 4 倍增长。 马斯克的这条回复出现在极为敏感的时间点,对资本市场叙事有不容忽视的正面影响。
六大方法同一框架下的系统性比较
| 方法 | 核心思路 | 权重类型 | 跨层访问 | 内存开销 | 实用性 |
|---|---|---|---|---|---|
| Standard Residuals 2015 ResNet |
固定等权加法 | 固定 | 仅相邻层 | 基准 | ✅ 大规模可用 |
| Highway Networks 2015 |
可学习门控插值 | 动态 | 仅相邻层 | +小 | ✅ 可用 |
| DenseFormer 跨层访问 |
固定标量权重访问所有层 | 静态 | 所有历史层 | O(L²) | ⚠️ 受限 |
| mHC 多流残差 |
m 个并行流,可学习混合矩阵 | 动态 | m 流 | 34d I/O | ⚠️ 较高内存 |
| Block AttnRes 本文(Kimi)⭐ |
块间 softmax 注意力,块内传统残差 | 动态 | N 个块表示 | 5.5d I/O | ✅ 大规模可用 |
| MoDA 同期 ByteDance+华科大 |
为注意力增加「深度维度」,访问历史 KV 对 | 动态 | 历史层 KV 对 | 验证中 | ⚠️ 验证中 |
MoDA + Post-Norm 组合下验证损失降低是 Pre-Norm 的 10 倍,可能逆转过去为稳定性而做的 Pre-Norm 妥协。 两项工作方向不同,可以叠加使用。
从表面现象 → 规律本质 → 规律映射 → 趋势推演
Kimi 团队发表《Attention Residuals》,马斯克、Karpathy、Jerry Tworek 等相继认可, 被称为「深度学习 2.0」的开端。这在中国 AI 团队的底层架构研究中极为罕见—— 此前的认可更多集中在模型能力排行榜上,鲜少在架构层面获得硅谷的主动认可。
这篇论文的本质不是「发明了新东西」,而是发现了一个被忽视 11 年的对称性:
RNN 在时序维度用固定权重累加 → Transformer 用注意力机制解决了
残差连接在深度维度同样固定权重累加 → AttnRes 用注意力机制解决了
这不是「打破 Transformer」,而是完成了 Transformer 的最后一块拼图——
「Attention is All You Need」中的 All,终于也覆盖了深度方向。
模型每一层都在做决策:下一层的输入应该包含哪些信息?
标准残差让它「全部照单全收」;AttnRes 让它「主动筛选,回头找最有用的」。
这个机制改变,对应着现实中一个更普遍的困境:
信息堆积不等于认知深度,精准回溯比无脑积累更有价值。
任何面临信息过载的系统(人、组织、模型)都面临同样的选择:
被最近的、最响亮的信息淹没,还是学会回到「地基」找关键信号?
AttnRes 指向一个未来趋势:当算力扩展的边际效益递减,
下一波大模型竞争的关键不在于参数量,而在于「同等参数下信息流的质量」。
AttnRes、MoDA、MuonClip 优化器、Kimi Linear 上下文加速……这些工作汇聚成一个信号:
回到架构本身,重新审视每一个「理所当然」的设计选择,仍有巨大空间。
中国 AI 团队正在从「快速跟进」向「原创架构创新」阶段迁移。
从这篇论文提炼的通用认知框架,适用于技术决策和日常思考
残差连接被沿用 11 年,因为「它有效」。但「有效」不代表「最优」。 最有价值的洞察,往往藏在大家都默认没问题的地方—— 没人质疑的约束,往往是最大的机会所在。
处理复杂问题时,不要被最近的、最吵的信息淹没。 建立「主动筛选」机制,能回到最关键的初始信号。 这不只是模型的问题——人在做决策时同样面临「信息稀释」的风险。
时序问题的解法(注意力机制)可以「旋转 90 度」解决深度问题。 强悍的解法往往是从另一个领域/维度「借来」的。 当你卡住时,问一句:「这个问题有没有已经被别的维度解决过的同构版本?」
越基础的问题,解决它的影响力越大、时效越长。 真正的杠杆点在底层,而不是表层功能的堆砌。 Kimi 动的是 1.4 万亿个 token 都要经过的「地基」——改一次,全体受益。
客观评估这项工作的边界,避免过度解读