Gemma 4 最引人注目的不是绝对参数量,而是「每参数智能密度」——用更少的参数实现更强的能力。E2B 和 E4B 的 E 代表「有效(Effective)」参数,背后是 Per-Layer Embeddings(PLE)技术:每个解码器层拥有独立的小型嵌入矩阵,查找速度快但不计入实际计算参数量。这让 2B 和 4B 模型在本地运行时极为高效,同时保留了多模态能力。
多模态能力的覆盖也超出预期:不仅支持图像和视频,E2B 和 E4B 还原生支持音频输入,可直接处理语音信号。这意味着在手机或 PC 本地,用户可以不经过云端完成语音理解 + 多步推理 + 工具调用的完整 Agent 链路。边缘 Agent 的最大制约——多模态理解能力——首次在小参数开源模型上得到有效解决。
对比 3 月发布的几款模型,Gemma 4 的战略意图清晰:Google 不再与 OpenAI 在云端旗舰模型上正面对抗,而是选择「开源生态 + 边缘部署」这条差异化路线。Gemma 4 推出当天,LM Studio 和 Ollama 的下载量激增,印证了这一战略的市场共鸣。
每一轮 AI 能力的开源下沉,都会触发一次「能力平权」——原本只有头部公司才能部署的能力,逐渐变成任何人都能在本地运行的基础设施。Gemma 4 延续了这一规律:将多模态 + 边缘 Agent 能力开源,意味着数以百万计的开发者可以在不依赖任何云服务的情况下构建强 Agent 应用。
历史规律显示:每次头部能力开源,产业格局都会发生根本性重构。闭源产品必须快速跑向「下一个前沿」,否则竞争优势会在 6-12 个月内被开源追上。Gemma 4 的发布,意味着 2024-2025 年的多模态旗舰能力已进入开源平权阶段。