Gemma 4在iPhone上以40+ token/s速度运行并支持128K上下文,这不是一次普通的模型发布——它标志着端侧多模态AI首次跨过「实用门槛」。2.54GB的模型体积、图片音频多模态理解、Agent Skills工具调用,这些能力首次在没有网络连接的情况下完整运行于消费级设备。
Google选择同步发布AI Edge Gallery iOS App而非只开源权重,透露出清晰的战略意图:苹果生态是端侧AI的关键战场。当前云端大模型军备竞赛已进入边际收益递减期(GPT-5→5.4→5.5能力增幅放缓),而端侧部署恰好打开了成本结构完全不同的新赛道——零推理成本、零延迟、零隐私顾虑。
ICLR 2026同日开幕并非巧合,学术界对「高效推理」「模型压缩」的研究正在加速转化为工程实践。预计6个月内,主流手机芯片(A19/骁龙8 Gen5/数据分析平台)将原生支持4B级模型,端侧AI Agent将成为新一代手机差异化卖点。