The Agent Watch

每日简报

2026年6月14日 · 8 条 · 3 个来源

🔥 头条

Claude Fable 5 创下编程基准新纪录

Anthropic 发布了Claude Fable 5,在 SWE-bench 上达到 95% — 打破了此前 Opus 4.8(88%)的纪录。1M token 上下文、128K 输出、高级工程师评分 91/100。定价为每百万 token 10/50 美元。同步发布Claude Mythos 5,面向科学推理。

ChatGPT 获得持久记忆 —「Dreaming」架构

OpenAI 部署了一个名为「Dreaming」的新记忆系统(6 月 4 日),能够跨聊天会话合成上下文。记忆成为产品基础设施,而非一个设置项。过时或矛盾的上下文被减少。

来源:kingy.ai →

开源 LLM 排名:Kimi K2.6 位居榜首,DeepSeek V4 Pro 在智能体任务中占优

2026年5月排名:Kimi K2.6MiMo-V2.5-Pro 并列 AA 指数 54 — 仅落后闭源领先者 3 个点。DeepSeek V4 Pro 在智能体工作领域排名第一(GDPval-AA Elo 1554,SWE-Bench 80.6%)。6 周内发布了 9 个主要模型。

📡 持续关注

GitHub Copilot 走向平台化

微软围绕 Copilot 密集发布:应用(扩展预览版)、CLI 刷新、SDK GA、云端/本地沙箱。AI 编码从自动补全走向托管工作会话。与 Claude Code 和 Codex 直接竞争。

Nex N2-Pro — 隐秘状态中的新挑战者

面向智能体工作流的非标准 Transformer 架构。尚未进入生产阶段,但为前沿增加了竞争压力。

Cohere North Mini Code — 小巧、免费、开源的编码器

总计 30B / 激活 3B(MoE),Apache 2.0 许可,256K 上下文。可在普通硬件上运行。自托管轻量级编码 AI 的最佳选择。

Holo3.1 — 本地计算机操作智能体

H Company 在 Hugging Face 上发布了从 0.8B 到 35B 的变体。可本地运行的屏幕控制智能体 — 隐私和延迟的优势。

Apple Core AI — 设备端堆栈

推理在 Apple Silicon 上本地运行,Swift 原生 API。面向健康/金融应用的隐私优先方案。仅限 Apple 生态系统。

📊 趋势

开源与闭源的差距从未如此之小:仅 3 个指数点。发布节奏正在加速(6 周内 9 个主要模型)。竞争正从「最佳模型」转向「最佳智能体生态」。