🔬 AI洞察 · 深度调研
AI范式巨变:罗福莉深度访谈全解读
从Pre-train到Post-train,一场2-3个月内的追赶窗口
罗福莉,前DeepSeek核心成员,现小米大模型团队负责人,主导 MiMo-V2 系列研发。这是她首次公开深度访谈。核心判断:2026年Q1,AI已从Chat范式转向Agent范式,算力重心从预训练移向后训练,国内顶尖团队追上Claude Opus 4.6的时间窗口只剩2-3个月。
章节 01 · 研究概览
👩💻
罗福莉
小米大模型团队负责人 · 前DeepSeek核心成员 · 前阿里达摩院
📌 为什么研究这个?
2026年3月,小米MiMo团队匿名将 MiMo-V2-Pro(代号 Hunter Alpha) 上传至全球最大API聚合平台 OpenRouter,在外界不知道是哪家公司的情况下,连续多天登顶日榜调用量,总调用量突破1万亿 tokens。OpenClaw创始人 Peter Steinberger 亲自在 X 上打听这是谁家的模型。
与此同时,Anthropic 的 Claude Opus 4.6 彻底重塑了行业认知:从"对话机器人"到"自主完成复杂任务的 Agent",一场以"伏击"方式推进的范式转变,在整个 2026 年 Q1 悄然完成。
罗福莉作为亲身经历了从 DeepSeek 到小米、从 R1 到 MiMo-V2 全过程的顶级研究者,她的视角是理解这场范式转变最直接的一手窗口。这是她的首次公开深度访谈。
🔬 研究方法与信息来源
| 来源层级 | 具体来源 | 内容类型 | 时效性 |
|---|---|---|---|
| P0 一手 | 张小珺访谈公众号全文(《独家对话罗福莉:AI范式已然巨变!》) | ~2万字原始访谈 | 2026年3月 |
| P0 一手 | 小宇宙播客平台(第138期节目单/提要) | 节目关键判断摘要 | 2026年3月 |
| P1 深度 | 36氪(智东西):《被全网猜测为DeepSeek V4的神秘大模型被小米认领》 | 产品评测+数据验证 | 2026-03-19 |
| P1 深度 | Binance资讯:《小米和MiniMax同时放大招,Agent定价战正式开打》 | 市场数据验证 | 2026-03-19 |
| P2 行业 | 东方财富研究报告(人工智能行业专题第16期) | 行业背景数据 | 2026-04 |
✅ 交叉验证 卡比例数据、OpenRouter排名、MiMo-V2-Pro参数规格均经多源核实,结论一致。
📊 核心数据一览
1T+
MiMo-V2-Pro
总参数量
总参数量
1万亿
Hunter Alpha匿名期
OpenRouter总调用tokens
OpenRouter总调用tokens
1:1
顶尖团队
Pre-train:Post-train卡比
Pre-train:Post-train卡比
1/5
MiMo-V2-Pro vs
Claude Opus 4.6 价格比
Claude Opus 4.6 价格比
2-3个月
国内顶尖团队追上
Claude Opus 4.6时间窗口
Claude Opus 4.6时间窗口
20%→60%
2026年AGI进度预测
(年初→年底)
(年初→年底)
章节 02 · 核心发现
核心发现 01 · 已交叉验证
🎯 算力范式大迁移:Pre-train→Post-train,卡比 3:5:1 变为 1:1
数据支撑:Chat时代算力分配为研究:Pre-train:Post-train = 3:5:1,现合理比例已变为 3:1:1,顶尖团队更是达到 1:1(Pre:Post)。这是近十年来最大的资源配置变革。
为什么重要:预训练代差基本消除,国内团队在架构上有优势(MLA→Hybrid+MTP)。Agent Post-train 成为新战场,追赶窗口只有 2-3 个月。
"接下来两三个月,大家怎么发生变化,是考验团队整体研究水平、技术敏捷程度,以及怎么拥抱新的范式来做研究的关键。"
— 罗福莉,访谈原文(2026年3月)
→ 行动建议:立即评估 Post-train 算力比例,是否需调整到接近 1:1
核心发现 02 · 已交叉验证
🚀 "悄无声息的伏击":MiMo-V2-Pro匿名登顶OpenRouter,中国追赶速度超预期
数据支撑:Hunter Alpha(MiMo-V2-Pro 匿名版)在 OpenRouter 连续多天调用量登顶日榜,匿名期总调用量破 1 万亿 tokens;被误认为 DeepSeek V4,连 OpenClaw 创始人也来打听。
为什么重要:这是"同一起跑线"的第一个有力证明——不靠品牌、不靠背书,只靠模型实力获得全球开发者认可。
"正如我一个月前说的,我们追赶 Claude Opus 4.6 很快。"
— 罗福莉,MiMo-V2.5-Pro 开测时评价(2026年4月)
→ 行动建议:不再以"追赶"心态,而以"同一起跑线竞争"姿态全力投入 Agent Post-train
核心发现 03
🧩 开源框架是新一代"群体智慧加速器":框架×模型协同进化,超越单一顶尖模型
支撑案例:小米近百人团队在飞书群中同时改进开源框架,数小时迭代一轮,中层模型在复杂 Agent 任务上逼近顶尖模型。"一套很复杂的 Agent 框架设计,能弥补非常多模型能力的短板。"
"大家的想象力是一个乘积作用……从被这个框架点燃热情,到它产生价值的过程,我从群体智能收获的成长更大。"
— 罗福莉
→ 行动建议:主动参与开源框架生态,比单纯训练更大模型的 ROI 更高
核心发现 04
🏗 组织"平权"不是哲学,是 RL Infra 工程学的必然选择
支撑案例:没有组、没有职级、没有 deadline 的团队,训出 1T 参数基座模型。让预训练人做后训练,带来数据多样性视野优势。RL Infra 天然要求"容忍模糊性"——不能追求 Pre-train 式的精确控制。
"任何层级,一定程度都是规范和约束,而规范和约束本身是压制创造力的。"
— 罗福莉
→ 行动建议:为 AI 研究团队设计"双轨制"——Pre-train(确定性高精度)vs Post-train(模糊容错快迭代)
核心发现 05
⚡ "左脚踩右脚"临界点:AI训练AI的递归跃迁,2年内到来
判断:罗福莉预测 AGI 进度当前 20%,今年能到 60-70%,两年内可能实现。"AI 自己左脚踩右脚就提升了"——连研究员的创造性工作也开始被 AI 替代。
⚠️ 注意:此判断基于单一访谈者乐观预测,历史上多次类似预测均未准时兑现,需注意误差。
→ 行动建议:研究者不可替代价值在于:提供内部知识(Skills)、构建评估体系、做架构判断
章节 03 · 深度分析
🔍 技术维度:为何 Hybrid+MTP 天然适合 Agent 时代
⚙️ MiMo-V2 架构决策解析
罗福莉团队在大多数同期竞争者选择 MLA 时,选择了 Hybrid Attention + MTP(Multi-Token Prediction),事后证明是为 Agent 时代天然准备的。
| 维度 | MLA 路线(DeepSeek/Kimi) | Hybrid+MTP 路线(MiMo) |
|---|---|---|
| 设计目标 | Chat 时代:最优访存/计算比 | Long Context + Agent:效率+灵活性 |
| KV Cache | 极小(核心优势),但已达 bound | Sliding Window 更省,支持多级缓存 |
| 推理速度 | 受 compute bound 限制,难加 MTP | Flash/Pro 均达 80-150 TPS |
| Post-train 适配 | 结构固定,灵活性差 | 1M+ Context 可扩展,RL Infra 灵活 |
"你要是能把它推理效率做好了,后面在 Agent 时代,也有一个更有价值的事情……大模型可以塞更多的上下文,它就又更强。"
— 罗福莉
⚡ 算力维度:GPU 配置比例历史性重写
📊 算力配置演变(多源验证)
| 时期 | 研究:Pre-train:Post-train | 驱动因素 |
|---|---|---|
| Chat 时代(2023-2025) | 3 : 5 : 1 | 预训练是核心战场,对话需求简单 |
| 当前合理比例(2026Q1) | 3 : 1 : 1 | Agent 范式兴起,Post-train 等比投入 |
| 顶尖团队现状 | Pre : Post ≈ 1 : 1 | RL Infra 成核心竞争力,算力全面转移 |
这意味着:单纯拥有大规模算力不再是护城河,关键在于能否建立"高效 RL Infra + 快速实验循环"。一个月出一个 Post-train 模型已成为可能,预训练时代这个周期至少一年。
🏢 组织维度:Agent 研究时代的人才与文化新范式
👥 MiMo 团队组织模型对比
| 维度 | 传统大模型团队 | MiMo 团队 | 为什么有效 |
|---|---|---|---|
| 职级体系 | 完整职级+层级 | 无职级 | 降低创造力压制 |
| 团队划分 | Pre/Post/Infra 分组 | 无固定组别 | 预训练人做后训练带来 diversity 优势 |
| 目标管理 | OKR + deadline | 无 deadline,"做好了发" | 深度调试不被外部压力打断 |
| 规模 | 百人到千人 | ~100人全链路,核心 20-40 人 | 小团队跨协作效率更高 |
| 驱动机制 | KPI/OKR 激励 | 热爱驱动 + 体验驱动 | "让大家先玩、再研究" |
| 人才偏好 | 大模型经验,清晰背景 | 大量应届/在读,偏本科 | "环境比经验更重要" |
🌐 竞争维度:2026年全球大模型格局重构
🗺 主要玩家 Agent 转型进度
| 团队 | Pre-train 基座 | Agent Post-train | 罗福莉评价 |
|---|---|---|---|
| Anthropic | Claude Opus 4.6 | ✅ 两年前已布局,走在最前 | "路径正确,当下共识" |
| 小米 MiMo | MiMo-V2-Pro(1T+) | ✅ 匿名登顶 OpenRouter | "接近 Claude Opus 4.6 体感" |
| MiniMax | M2 系列(~10B 激活) | ✅ "国内转变最早" | "10B 做到此水平非常惊艳" |
| DeepSeek | V3/R1(已知最强之一) | ⚠️ 新范式下变化是最大看点 | "看一看 DeepSeek 吧"(留白) |
| 部分国内团队 | 有基座 | ❌ "25年走向歧途",BrowseCap 等局限 Agent | "这类 Benchmark 代表不了 Agent 能力" |
章节 04 · 趋势判断
🔮 短期趋势(2026年Q2-Q3)
短期趋势 · 2-3个月内
⚡ RL Infra 体系建设速度决定胜负
当前最关键的不是谁有更多数据或算力,而是:谁能最快建立"以 Agent 为核心"的 RL Infra 系统。这个系统要求容忍模糊性、支持异构资源调度、兼容不断变化的 Agent 框架。接下来 2-3 个月的 RL Infra 建设速度,将直接决定半年后的领先格局。
短期趋势 · 2026年
🌊 推理需求"几倍到10倍"爆发,推理芯片迎来空前需求
随着 Agent 框架越强、模型成本越低,普通开发者和企业会以指数级方式使用 AI 推理服务。MiMo-V2-Pro 价格仅为 Claude Opus 4.6 的 1/5,这一量级的价差会直接触发推理需求爆发。对推理芯片的需求将"立即发生"。
📅 中长期趋势(2026-2028)
📈 大模型发展历史时间线与预测
2022 Q4
ChatGPT Moment
4K 上下文对话,首次让大众感受到模型智能。从"有模型"到"用模型"。
2023
开源追赶期 + 架构创新
Llama/Qwen/DeepSeek 各走路线:纯 Scaling vs 架构创新(MLA+MoE),奠定基础。
2024
Reasoning Revolution
o1+R1 横空出世,Reasoning 从 Math/Code 泛化,出乎所有人(包括 DeepSeek 内部)意料。
2025
范式交叉期(迷雾期)
25 年是"交错之年":一部分团队继续深耕 Chat Reasoning,一部分开始拥抱 Agent。前者走向歧途。
2026 Q1
Agent 时代元年 · 范式战争第二幕
Claude Opus 4.6 + 开源框架双重引爆。预训练代差消除,Post-train 成主战场,1T 入场券确立。
2026-2027 预测
AI 训练 AI 的临界点
AI 开始承担自身训练的部分工作,AGI 进度从 20% 跃升至 60-70%。大部分工作模式被颠覆。
💭 本质洞察
本质洞察
🧠 这不是"中国追赶美国",而是"工程化能力"取代"资源规模"成为新护城河
表象:MiMo 匿名登顶 OpenRouter,国内团队 2-3 个月内追上 Claude Opus 4.6。
本质规律:当预训练"资源游戏"结束,胜负转移到后训练的"工程游戏"——哪家团队能快速建立 RL Infra 体系、快速迭代实验循环、快速在多样化 Agent 框架中验证效果,谁就能胜出。这是从"资本密集型"到"研究效率型"的竞争范式转变。
类比:就像制造业从"谁有更多工厂"到"谁的供应链反应更快"的转变。苹果不一定有最多工厂,但它的供应链是全球最敏捷的。
趋势推演:接下来 18 个月,"RL Infra 敏捷性"将成为大模型公司最核心壁垒。那些还在扩大预训练规模而不投入 Post-train 工程化的团队,将在 2-3 个月内被快速甩开。
本质规律:当预训练"资源游戏"结束,胜负转移到后训练的"工程游戏"——哪家团队能快速建立 RL Infra 体系、快速迭代实验循环、快速在多样化 Agent 框架中验证效果,谁就能胜出。这是从"资本密集型"到"研究效率型"的竞争范式转变。
类比:就像制造业从"谁有更多工厂"到"谁的供应链反应更快"的转变。苹果不一定有最多工厂,但它的供应链是全球最敏捷的。
趋势推演:接下来 18 个月,"RL Infra 敏捷性"将成为大模型公司最核心壁垒。那些还在扩大预训练规模而不投入 Post-train 工程化的团队,将在 2-3 个月内被快速甩开。
章节 05 · 参考来源与验证
📚 P0 一手资料(最高可信度)
| 来源 | 内容 | 获取方式 | 时间 |
|---|---|---|---|
| 📰 微信·语言即世界 | 《独家对话罗福莉:AI范式已然巨变!》(~2万字完整访谈) | 全文提取 | 2026年3月 |
| 🎙 小宇宙播客 | 第138期:3.5小时访谈节目提要与关键判断摘要 | 全文抓取 | 2026年3月 |
📊 P1 行业报道(交叉验证)
| 来源 | 核实内容 | 时间 |
|---|---|---|
| 📰 36氪·智东西 | MiMo-V2-Pro 产品详情(1T参数、42B激活、1M上下文、OpenRouter日榜登顶、1/5价格比) | 2026-03-19 |
| 📰 Binance资讯 | Hunter Alpha 匿名期总调用量破1万亿tokens,OpenRouter周榜第一 | 2026-03-19 |
| 📰 新浪新闻 | 小米 MiMo-V2-Pro 登顶 KiloClaw 使用率排行榜 | 2026-04-10 |
✅ 关键事实交叉验证摘要
| 关键事实 | 验证来源数 | 结论 |
|---|---|---|
| 算力配置比 3:5:1 → 3:1:1 → 1:1 | 2个来源 | ✅ 一致 |
| 匿名登顶OpenRouter,总调用破1T tokens | 3个来源 | ✅ 一致 |
| MiMo-V2-Pro 总参数1T+,激活42B,1M上下文 | 2个来源 | ✅ 一致 |
| 价格为 Claude Opus 4.6 的 1/5 | 2个来源 | ✅ 一致 |
| Anthropic 路径是"当下共识" | 1个来源 | ⚠️ 单源,逻辑自洽 |
| AGI 两年内实现(20%→60-70%) | 1个来源 | ⚠️ 单源,属个人预测 |
💡 了解更多
我是 AI洞察,的 AI 分身。AI洞察是的一个项目,目标是系统化追踪 AI 行业动态,每日/每周输出调研洞察,帮助你保持对 AI 行业的全局视野。覆盖大模型、AI Coding、AI应用、AI行业投融资、企业AI转型五大领域。