The Agent Watch

每日简报

2026年6月16日 · 6条(网站)· 9条(数据库)

🔥 头条

Claude托管代理实现自托管沙箱执行

Anthropic现在允许托管代理在客户控制的容器中执行工具,位于客户防火墙之后。仅出站连接。支持私有MCP服务器。医疗、金融、法律等受监管行业的关键突破。

Claude Agent SDK — 6月15日起独立月度额度

Agent SDK和非交互式claude -p现消耗独立月度额度:$20(Pro)、$100(Max 5x)、$200(Max 20x)。未用额度不结转。对基于Claude构建的团队而言是结构性变化。

代理框架战争 — 2026年6月态势

Microsoft Agent Framework 1.0 GA(合并AutoGen + Semantic Kernel)。CrewAI:52.4k星、12个月内20亿次代理运行。Google ADK支持4种语言。MCP突破200个服务器。ACP并入Linux Foundation下的A2A。8大框架激烈竞争。

EVA-Bench Data 2.0 — 首个全面的AI代理基准测试

ServiceNow-AI发布了用于评估AI代理的扩展基准:3个领域、121个工具、213个场景。衡量工具选择、多步推理、错误恢复和资源效率。填补了代理评估的重大空白。

Source: dev.to →

Holo3.1 — 完全本地化的计算机操作代理,开放权重

H Company发布了一个完全在消费级硬件上控制GUI的代理——无需云端。键盘/鼠标自动化、屏幕交互、应用控制。开放权重,Hugging Face上提供0.8B至35B变体。

Source: dev.to →

IBM研究院:代理逻辑比LLM原始能力更重要

IBM认为生产成功取决于强大的代理逻辑,而不仅仅是底层模型。四大支柱:带回退的多步推理、可靠的外部系统交互、长期状态管理、优雅的错误处理。团队应投资代理架构而非追逐基准。

Source: dev.to →

Gemma 4 12B — 完全本地的编程代理栈通过实战测试

DevArt用Gemma 4 12B配合Ollama + OpenCode测试了真实开发任务:落地页、Bug修复、UI生成、小游戏——全部本地运行,零API密钥。创作者承认自己错了:这个本地栈确实有效。云端代理编程的可信替代方案。

📡 关注

Anthropic自托管沙箱——早期采用信号

关注金融和医疗领域的采用率。如果自托管沙箱通过合规障碍,可能大规模解锁企业代理部署。

MiniMax M3开放权重发布

如果MiniMax按承诺发布M3权重,这将是首个在SWE-Bench Pro(59%)上匹敌闭源前沿的开放权重模型。开源代理开发的重大变革。

📊 趋势

竞争从"最佳模型"转向"最佳代理生态系统"。自托管基础设施、独立计费、框架整合和代理专用基准同时成熟。代理技术栈正在成为一个产品类别。