GPT-5.4在OSWorld-Verified上达到75.0%成功率,首次超越人类的72.4%基准。这不是又一个Benchmark数字游戏——OSWorld测试的是模型通过截图和键鼠操作在真实桌面环境中完成任务的能力,如打开应用、填写表单、跨窗口操作。这是AI第一次在"像人一样使用计算机"这个维度上超越人类水平。
为什么这件事的意义远超表面?因为"操作计算机"是一种元能力——它意味着AI不再受限于特定的API或插件接口,而是可以像人一样使用任何软件。传统的AI集成需要每个软件提供API,而Computer Use绕过了这个瓶颈:不需要API,只要有屏幕就能操作。这将大幅降低AI Agent的落地成本,尤其对那些没有API的遗留系统(企业内部的ERP、CRM、政府系统)意义重大。
结合Anthropic同期发布的就业影响研究,一个清晰的图景浮现:AI的理论能力(94%任务覆盖)与实际使用(33%覆盖)之间存在巨大鸿沟,而Computer Use能力正是弥合这一鸿沟的关键技术。当AI可以直接操作任何软件时,"理论能覆盖但实际没覆盖"的61%缺口将加速收窄。