MiniMax M2.7提出了一个让人兴奋又有点不安的概念:自我进化。它不仅仅是一个被动训练的模型,而是首个能深度参与自身迭代的模型——自主运行超100轮优化循环,在内部评测集上实现30%效果提升。从M2.5(2026-02-12)到M2.7(2026-03-18)仅36天,从M2到M2.7共108天四代迭代。
同时,ARC-AGI-3即将于3月25日发布,专门设计为「对人类简单、对AI极难」的互动推理基准。Gemini 3 Flash的ARC-AGI-2得分仅57.7%,而大多数人类轻松达到85%。这说明:即使模型在coding、math等传统基准表现优秀,在真正的认知灵活性上仍有巨大差距。
两件事放在一起,有一个微妙的信号:国产模型在性能基准上快速逼近顶尖,而顶尖评测标准也在同步升级。MiniMax登顶国服是真实成就,但ARC-AGI-3的发布提醒我们:衡量智能的尺子,还没有停止变长。