1 最近动态
🌏 海外
HOT
OpenAI · 2026-03-03
专注于对话体验而非Benchmark跑分。幻觉率降低26.8%(使用Web搜索时),大幅减少不必要的拒绝和"说教式"回答。首次将"用户体验"作为模型更新核心卖点。
HOT
Anthropic · 2026-02-26
Anthropic CEO发表声明,拒绝美国国防部要求的"大规模国内监控"和"完全自主武器"两项用途。国防部威胁将其列为"供应链风险"。
NEW
TechCrunch · 2026-02-23
指控DeepSeek、Moonshot、MiniMax通过2.4万假账号生成1600万次对话蒸馏Claude能力。DeepSeek V4据报将在编程能力上超越Claude和GPT。
2 热门观点
DA
Dario Amodei Anthropic CEO
"今天的前沿AI系统还不够可靠,无法驱动完全自主的武器。我们不会明知会将美国战士和平民置于风险中而提供产品。"
来源: Anthropic官方声明 · 2026-02-26
3 趋势洞察
用户体验取代Benchmark成为新竞争维度: GPT-5.3 Instant的发布标志着模型竞争从"跑分第一"向"用好为先"转变。OpenAI明确指出改进来自用户反馈而非评测集,实际使用数据成为迭代方向的核心依据。
💡 建议:如果你在评估模型选型,除了看榜单排名,更应该关注模型在你实际场景中的拒绝率和对话流畅度。可以用5-10个你最常遇到的"边缘问题"做测试。