今天,ARC-AGI-3在旧金山正式发布。这不是一个普通的AI基准更新,而是一次对整个行业的「能力重新定标」。ARC-AGI-3的设计原则只有一句话:对人类简单,对AI极难。它不考核知识记忆,不考核数学计算,而是考核在全新环境中的认知灵活性——即在从未见过的规则下,能不能像人类一样快速理解和推理。
上一届基准(ARC-AGI-2)中,Gemini 3 Flash得分仅57.7%,而大多数人类轻松超过85%。这个差距不是计算能力的差距,而是「理解新事物」的差距。同期,Qwen3.5-9B以9B参数超越了120B参数的旗舰模型——两件事放在一起说明:参数量不再是智能的代理指标,真正的认知能力需要新的评估框架。
ARC-AGI-3的发布,恰恰是在整个行业都在宣称「媲美人类」的时候出现的。它的存在本身就是一个清醒剂:当所有模型都说自己通过了某个测试,意味着那个测试已经失效了。新的尺子,是专门为了发现AI能力的新边界而设计的。接下来几周,各大模型在ARC-AGI-3上的分数,将成为新的能力参考系。