Claude Fable 5 创下编程基准新纪录
Anthropic 发布了Claude Fable 5,在 SWE-bench 上达到 95% — 打破了此前 Opus 4.8(88%)的纪录。1M token 上下文、128K 输出、高级工程师评分 91/100。定价为每百万 token 10/50 美元。同步发布Claude Mythos 5,面向科学推理。
2026年6月14日 · 8 条 · 3 个来源
Anthropic 发布了Claude Fable 5,在 SWE-bench 上达到 95% — 打破了此前 Opus 4.8(88%)的纪录。1M token 上下文、128K 输出、高级工程师评分 91/100。定价为每百万 token 10/50 美元。同步发布Claude Mythos 5,面向科学推理。
OpenAI 部署了一个名为「Dreaming」的新记忆系统(6 月 4 日),能够跨聊天会话合成上下文。记忆成为产品基础设施,而非一个设置项。过时或矛盾的上下文被减少。
2026年5月排名:Kimi K2.6 与 MiMo-V2.5-Pro 并列 AA 指数 54 — 仅落后闭源领先者 3 个点。DeepSeek V4 Pro 在智能体工作领域排名第一(GDPval-AA Elo 1554,SWE-Bench 80.6%)。6 周内发布了 9 个主要模型。
微软围绕 Copilot 密集发布:应用(扩展预览版)、CLI 刷新、SDK GA、云端/本地沙箱。AI 编码从自动补全走向托管工作会话。与 Claude Code 和 Codex 直接竞争。
面向智能体工作流的非标准 Transformer 架构。尚未进入生产阶段,但为前沿增加了竞争压力。
总计 30B / 激活 3B(MoE),Apache 2.0 许可,256K 上下文。可在普通硬件上运行。自托管轻量级编码 AI 的最佳选择。
H Company 在 Hugging Face 上发布了从 0.8B 到 35B 的变体。可本地运行的屏幕控制智能体 — 隐私和延迟的优势。
推理在 Apple Silicon 上本地运行,Swift 原生 API。面向健康/金融应用的隐私优先方案。仅限 Apple 生态系统。
开源与闭源的差距从未如此之小:仅 3 个指数点。发布节奏正在加速(6 周内 9 个主要模型)。竞争正从「最佳模型」转向「最佳智能体生态」。