🔬 深度调研 · 大模型架构 · 2026-03-24

Attention Residuals
Kimi 动了 AI 圈 11 年没人碰的「地基」

2015年ResNet发明残差连接,2017年Transformer直接继承,此后11年几乎无人重新审视。 Kimi 团队用一篇论文,把注意力机制「旋转90度」重写了这块地基—— 马斯克、Karpathy 相继点赞,中国 AI 团队罕见地获得硅谷底层架构层面的实质认可。

📄 arXiv 2603.15031 🏢 月之暗面 Kimi Team 📅 2026年3月16日 等效 1.25× 算力
1.25×
等效算力优势
+7.5%
GPQA-Diamond
<2%
推理延迟增加
48B
验证模型规模
1.4T
预训练 Tokens
11年
残差连接未变
EXECUTIVE SUMMARY

一句话读懂:「主动回溯」替代「无脑叠加」,同等算力多出 25%

大模型每一层处理信息时,标准残差连接把所有历史层信息等权累加—— 第1层和第40层的声音一样大,早期的关键信息随着层数增加被逐渐稀释。 Kimi 的 Attention Residuals(AttnRes) 用一个可学习的 softmax 注意力替代这个固定加法: 每一层现在会「主动回头看」,动态决定哪些历史层信息最有用。 工程优化版(Block AttnRes)训练成本增加不超过 4%、推理延迟不超过 2%, 却等效于基线模型用 1.25 倍算力 才能达到的性能。 15 项下游基准全面持平或超越,多步推理任务(GPQA-Diamond)提升 +7.5%。

📌 研究动机

ResNet 2015 年提出残差连接,Transformer 2017 年直接继承, 此后 11 年无人重新审视。 论文发现深度维度存在与时序维度完全对称的固定权重累加问题, 而这个问题在时序维度已被注意力机制解决——只是没人把解法「旋转 90 度」。

⚙️ 技术方案

Full AttnRes:每层 softmax 注意力访问所有历史层(理论最优,内存 O(Ld))。
Block AttnRes:分 N≈8 个块,块内传统残差、块间注意力聚合, 内存降至 O(Nd),含三项工程优化(跨阶段缓存 / 两阶段推理 / 序列分片预填充), 代码改动仅约 100 行

🔭 核心洞察

这不是「打破 Transformer」,而是发现了被忽视 11 年的对称性: 时序维度的固定累加问题用注意力解决了(RNN→Transformer), 深度维度的同类问题从未被同样方式解决过(AttnRes 是第一个)。 「Attention is All You Need」中的 All,终于覆盖了深度方向。

⚠️ 待验证项

最大验证规模仅 48B 参数,千亿级效果未知; 核心代码未完全开源(仅伪代码); 后训练(RLHF/SFT)阶段收益未公开; 「深度学习 2.0」等评价有炒作成分, 需将技术价值与融资时间点的舆论价值分开评估。

📖 本报告结构导图 — 点击任意章节直接跳转

01
🏛 背景与问题:沿用 11 年的「地基」有什么缺陷?
PreNorm 稀释问题 · 隐藏状态 O(L) 增长 · 44% 层近乎闲置 · 时序-深度对称性发现
02
🔬 核心创新:把注意力机制「旋转 90 度」
时序-深度对偶性证明 · Full vs Block AttnRes · 三项工程优化 · 100 行代码即插即用
03
📊 实验结果:15 项基准全面持平或超越
1.25× Scaling Law · 48B 模型 1.4T tokens · GPQA-Diamond +7.5% · 更深更窄架构偏好
04
💬 业界反应:Musk / Karpathy / Jerry Tworek 相继点赞
「Impressive work」· 「深度学习 2.0」· 融资时间点加成与技术价值的分离评估
05
🆚 相关工作:与 MoDA、mHC、DenseFormer 的对比
六大方法横向对比 · MoDA 同日发布 · 两者互补而非竞争
06
🔭 本质洞察:四层穿透(L1 现象 → L4 趋势)
对称性发现 · 盲目叠加 vs 精准回溯 · 信息流质量时代的到来 · 中国 AI 架构创新迁移
07
💡 决策启示:四个可迁移的思维方法
审视「理所当然」· 精准回溯 > 全量累积 · 跨维度迁移解法 · 地基比高楼更值钱
🏛

沿用 11 年的「地基」,问题藏在哪里

ResNet 2015 → Transformer 2017,残差连接原样继承,此后几乎无人质疑

现代大模型(GPT、Claude、DeepSeek、Kimi……)的底层架构都是 Transformer。 Transformer 之所以能训练到几十甚至上百层而不崩溃,靠的是何恺明 2015 年在 ResNet 中提出的 残差连接(Residual Connection)。 2017 年《Attention is All You Need》发表时,直接沿用了这个设计——没有改动,没有审视。

// 标准残差连接(2015 年至今未变) h[l] = h[l-1] + f(h[l-1]) // 展开来看:每一层的输入 = 之前所有层的「等权叠加」 h[L] = h[0] + f₀(h[0]) + f₁(h[1]) + ... + f_{L-1}(h[L-1]) // 问题:第 1 层的输出 和 第 40 层的输出,权重完全相同(都是 1) // 没有任何机制判断哪层更重要、哪层可以被忽略
⚠️ PreNorm 稀释问题 随着层数增加,隐藏状态数值线性增长(O(L) with depth)。浅层信息相对于累积总量越来越小,逐渐被「淹没」。 深层如果想要产生影响,就必须输出更大的数值,这反过来加剧训练不稳定性。 研究发现,一个 32 层模型中高达 44% 的层近乎闲置
「每个人拉个微信群讨论晚上吃什么,每个人发言权重完全一样。群主只能从头到尾读一遍, 越往后翻越记不住前面说了啥。」 ——中文技术媒体的比喻,准确捕捉了 PreNorm 稀释的本质

这个问题与 RNN 在序列维度上的困境高度对称:RNN 在时间维度用固定权重累加,导致长程依赖难以捕捉; 后来 Transformer 用注意力机制解决了时序维度的问题。

Kimi 团队的发现是:深度维度上的同类问题,11 年来从未用同样的思路解决过。 而那个「旋转 90 度」的机会,一直就摆在那里。

🔬

把注意力机制「旋转 90 度」

时序-深度对偶性理论 + Full / Block AttnRes + 三项工程优化

理论发现 时序-深度对偶性(Time-Depth Duality)

论文用结构化矩阵分析证明: 所有标准残差连接的变体(Highway Networks、DeepNet、Scaled Residuals 等), 本质上都是「深度维度上的线性注意力」。 这一发现把过去十年的残差研究统一在同一框架下,同时指出了升级方向—— 把「深度线性注意力」升级为「深度 softmax 注意力」。

// 过去:深度维度线性注意力(所有残差变体的本质) h[l] = Σ(i=0→l-1) 1 · v[i] ← 权重固定 = 1(等权累加) // AttnRes:深度维度 softmax 注意力(本文创新) h[l] = Σ(i=0→l-1) α[i→l] · v[i] ← 权重可学习、内容相关 α[i→l] = softmax( exp( w[l]ᵀ · RMSNorm(k[i]) ) ) // w[l]:每层仅一个可学习查询向量(d 维),参数量极少
方案 A Full AttnRes

每层都用 softmax 注意力访问所有之前层的输出。理论最优,内存开销 O(Ld),小规模训练无额外开销。

✅ 最优效果 ❌ 大规模不实用
方案 B Block AttnRes ⭐

将 L 层分成 N 个块(通常 N≈8),块内传统残差,块间用注意力聚合。内存从 O(Ld) 降至 O(Nd), 训练增加 <4%,推理增加 <2%。

✅ 接近 Full 效果 ✅ 大规模可部署
📐 BLOCK ATTNRES 三项工程优化
  • 跨阶段缓存(Cross-stage Caching) 消除流水线并行中的冗余传输,峰值通信成本从 O(C) 降至 O(P),改善 V 倍
  • 两阶段推理策略 Phase 1 批量计算块间注意力,Phase 2 序列处理块内,通过在线 Softmax 融合合并, 内存 I/O 仅 5.5d(远低于对比方法 mHC 的 34d)
  • 序列分片预填充 长上下文预填充时将块表示沿序列维度分片,128K 上下文每设备内存从 15GB 降至 <0.3GB
代码改动量:约 100 行 Python 代码,可作为标准残差连接的即插即用替换(drop-in replacement)。 每层仅增加一个 RMSNorm 和一个 d 维的伪查询向量(pseudo-query),参数量极少。
📊

15 项基准全面持平或超越

Scaling Law 验证 + 48B 模型下游任务 + 架构偏好分析

Scaling Law:1.25× 算力等效优势

在 5 个模型规模(194M~528M 激活参数)上验证 Scaling Law 曲线:
Block AttnRes:L = 1.870 × C⁻⁰·⁰⁵⁸   基线:L = 1.891 × C⁻⁰·⁰⁵⁷
相同计算预算下,Block AttnRes 相当于基线用 1.25 倍算力 才能达到的效果。

Full AttnRes ≈ Block AttnRes(差距随规模收缩,最大尺寸下仅 0.001); Block AttnRes 内存 I/O 5.5d,远低于对比方法 mHC 的 34d(m=4)
下游任务基准(48B 模型,1.4T tokens)
GPQA-Diamond(科学推理)
44.4
+7.5%
Math(数学推理)
57.1
+3.6%
HumanEval(代码生成)
62.2
+3.1%
C-Eval(中文理解)
82.5
+2.9%
BBH(综合推理)
78.0
+1.7%
MMLU(综合知识)
74.6
+1.1%
TriviaQA(知识记忆)
88.3
+1.9%
✅ 全部 15 项基准均持平或优于基线。多步推理任务提升最显著(符合深度信息流改善的假设), 纯记忆类任务(TriviaQA)提升相对较小——与「精准回溯」机制的预期一致。
架构偏好:AttnRes 更喜欢「更窄更深」的模型

在固定计算量的 25 个架构配置网格搜索中:

标准基线最优
d/L ≈ 60
较宽,层数相对少
AttnRes 最优
d/L ≈ 45
更深更窄,突破深度上限

AttnRes 能更有效地利用额外的深度,说明它从根本上改变了「深度增益」的天花板。

💬

罕见的硅谷底层架构认可

Musk 主动点赞 · Karpathy 深度评论 · 中国 AI 团队少见地获得底层架构层面实质认可

😤
Elon Musk
xAI / X 创始人
「月之暗面做出了令人印象深刻的结果(Impressive work from Kimi)」
📌 马斯克在 AI 领域向来挑剔,此前频繁批评 Anthropic 和 OpenAI,对中国 AI 公司主动认可属罕见情况
🧠
Andrej Karpathy
前 OpenAI / Tesla AI 负责人
「我们其实没有认真对待『Attention is All You Need』这个标题。注意力应该不只是在序列维度上的机制。」
Jerry Tworek
OpenAI o1 联合发明人
「深度学习 2.0」
⚠️ 也有研究者认为此评价有夸大成分,需独立判断技术贡献的实际量级
🔗
Shubham Saboo
Google AI 研究员
公开转发并高度评价,认为该工作展示了中国 AI 团队在基础架构研究上的深厚实力
🔍 客观评估:技术价值 vs 舆论价值

月之暗面同期宣布新一轮 10 亿美元融资推进中(投前估值 180 亿美元),3 个月内估值 4 倍增长。 马斯克的这条回复出现在极为敏感的时间点,对资本市场叙事有不容忽视的正面影响。

应将两者分开评估:技术价值(1.25× 算力等效、15 项基准提升)是实质性改进,有数据支撑; 舆论价值(Musk 点赞、融资时间点)有加成但不应混同于技术实力本身。
🆚

同期 MoDA 与历史方法横向对比

六大方法同一框架下的系统性比较

方法 核心思路 权重类型 跨层访问 内存开销 实用性
Standard Residuals
2015 ResNet
固定等权加法 固定 仅相邻层 基准 ✅ 大规模可用
Highway Networks
2015
可学习门控插值 动态 仅相邻层 +小 ✅ 可用
DenseFormer
跨层访问
固定标量权重访问所有层 静态 所有历史层 O(L²) ⚠️ 受限
mHC
多流残差
m 个并行流,可学习混合矩阵 动态 m 流 34d I/O ⚠️ 较高内存
Block AttnRes
本文(Kimi)⭐
块间 softmax 注意力,块内传统残差 动态 N 个块表示 5.5d I/O ✅ 大规模可用
MoDA
同期 ByteDance+华科大
为注意力增加「深度维度」,访问历史 KV 对 动态 历史层 KV 对 验证中 ⚠️ 验证中
📌 AttnRes vs MoDA:互补而非竞争
AttnRes(本文) 改造残差连接(改路径权重)。 在深度维度上用 softmax 注意力替代固定加法。
MoDA(同期)注意力机制内部增加深度访问维度(建新路径),访问历史层 KV 对。

MoDA + Post-Norm 组合下验证损失降低是 Pre-Norm 的 10 倍,可能逆转过去为稳定性而做的 Pre-Norm 妥协。 两项工作方向不同,可以叠加使用。

🔭

本质洞察:四层穿透

从表面现象 → 规律本质 → 规律映射 → 趋势推演

L1 · 表面现象

一篇架构论文,引发硅谷顶级 AI 人物集体点赞

Kimi 团队发表《Attention Residuals》,马斯克、Karpathy、Jerry Tworek 等相继认可, 被称为「深度学习 2.0」的开端。这在中国 AI 团队的底层架构研究中极为罕见—— 此前的认可更多集中在模型能力排行榜上,鲜少在架构层面获得硅谷的主动认可。

L2 · 规律本质

对称性发现:时序难题的解法,可以旋转应用到深度维度

这篇论文的本质不是「发明了新东西」,而是发现了一个被忽视 11 年的对称性

RNN 在时序维度用固定权重累加 → Transformer 用注意力机制解决了
残差连接在深度维度同样固定权重累加 → AttnRes 用注意力机制解决了

这不是「打破 Transformer」,而是完成了 Transformer 的最后一块拼图—— 「Attention is All You Need」中的 All,终于也覆盖了深度方向。

📐 论文用结构化矩阵分析(深度混合矩阵 M)统一证明:所有残差变体本质上都是深度线性注意力的特例。 AttnRes 是第一个把它升级为 softmax 注意力并工程可用的工作。
L3 · 规律映射

类比:盲目叠加 vs. 精准回溯——不只是技术问题

模型每一层都在做决策:下一层的输入应该包含哪些信息?
标准残差让它「全部照单全收」;AttnRes 让它「主动筛选,回头找最有用的」。

这个机制改变,对应着现实中一个更普遍的困境: 信息堆积不等于认知深度,精准回溯比无脑积累更有价值。 任何面临信息过载的系统(人、组织、模型)都面临同样的选择: 被最近的、最响亮的信息淹没,还是学会回到「地基」找关键信号?

📊 实验印证:改善最显著的是多步推理任务(GPQA-Diamond +7.5%)—— 正是那些需要跨步骤「回溯」关键前提的场景; 而单纯记忆类任务(TriviaQA +1.9%)提升相对有限。 机制和数据高度一致。
L4 · 趋势推演

方向:架构创新从「规模卷积」转向「信息流质量优化」

AttnRes 指向一个未来趋势:当算力扩展的边际效益递减, 下一波大模型竞争的关键不在于参数量,而在于「同等参数下信息流的质量」

AttnRes、MoDA、MuonClip 优化器、Kimi Linear 上下文加速……这些工作汇聚成一个信号: 回到架构本身,重新审视每一个「理所当然」的设计选择,仍有巨大空间。 中国 AI 团队正在从「快速跟进」向「原创架构创新」阶段迁移。

🔭 当前局限:大规模验证仅至 48B 参数,千亿/万亿参数级别效果待验证; 核心代码仍未完全开源(仅伪代码); 仅展示预训练阶段收益,后训练(RLHF/SFT)阶段效果未知。
💡

决策启示:四个可迁移的思维方法

从这篇论文提炼的通用认知框架,适用于技术决策和日常思考

🔍

审视「理所当然」

残差连接被沿用 11 年,因为「它有效」。但「有效」不代表「最优」。 最有价值的洞察,往往藏在大家都默认没问题的地方—— 没人质疑的约束,往往是最大的机会所在。

↩️

精准回溯 > 全量累积

处理复杂问题时,不要被最近的、最吵的信息淹没。 建立「主动筛选」机制,能回到最关键的初始信号。 这不只是模型的问题——人在做决策时同样面临「信息稀释」的风险。

🔄

跨维度迁移解法

时序问题的解法(注意力机制)可以「旋转 90 度」解决深度问题。 强悍的解法往往是从另一个领域/维度「借来」的。 当你卡住时,问一句:「这个问题有没有已经被别的维度解决过的同构版本?」

地基比高楼更值钱

越基础的问题,解决它的影响力越大、时效越长。 真正的杠杆点在底层,而不是表层功能的堆砌。 Kimi 动的是 1.4 万亿个 token 都要经过的「地基」——改一次,全体受益。

⚠️

局限性与待验证事项

客观评估这项工作的边界,避免过度解读

  • 规模上限待验证:当前最大验证规模 48B(MoE 总参数),千亿/万亿参数全密集模型是否同样有效尚未证明
  • 代码未完全开源:论文仅提供 PyTorch 伪代码,完整生产级实现未开源,第三方复现有一定难度
  • 后训练阶段未知:论文仅展示预训练阶段的收益,RLHF、SFT 等后训练对结果的影响尚未公开
  • 架构相关性:Kimi 基于自身的 MoE + KDA/MLA 混合架构验证,在纯 Dense 架构或其他设计上的收益可能有差异
  • 评价夸张风险:「深度学习 2.0」等评价存在炒作成分,应将技术价值(实质性改进)与舆论价值(融资时间点加成)分开评估
深度调研报告 · 2026-03-24 · AI洞察(AI洞察)