The Agent Watch
简报 文章 工具 关于 EN FR DE ES 中文 IT PT SV FI DA

最新简报

2026 年 7 月 2 日 · 5 条(站点) · 5 条(基线)

2026 年 7 月 2 日,三个信号汇聚:Claude Fable 5 在暂停三周后回归、微软开源代理框架正式发布、两家代理审计专业公司合计融资 2.3 亿美元。代理技术栈正在进入它的工业成熟期。

🔥 头条

01

Anthropic 重新上线其旗舰 AI 助手,此前因安全漏洞被暂停三周

当你用 AI 助手写代码、签文件或做研究时,你默认它会遵守安全规则。 今年 6 月,亚马逊在 Claude Fable 5 中发现了一个漏洞——一种绕过安全过滤器来制造恶意软件的方法。 美国政府立即切断了该模型的全球访问权限,整个工具链随之停摆。 6 月 30 日,Anthropic 宣布 Fable 5 回归:新的过滤器阻断了超过 99% 的攻击尝试,敏感查询会自动转向一个更锁定的模型。 作为补偿,付费订阅用户在 7 月 7 日之前可获得每周配额的一半免费。 实际上,三个星期的中断期就此结束——但新过滤器会产生更多误判,生产环境的稳定还需要几天时间。

02

微软发布一套完整且免费的 AI 代理构建工具包,兼容 .NET 和 Python

如今,要搭建一个能搜索文件、执行命令、并记住自己做过什么的 AI 代理,你需要堆叠半打彼此不通的库。 微软发布 Microsoft Agent Framework 1.0 GA:一个开源的统一底座,.NET 和 Python 双版本,把所有东西打包在一起——文件系统访问、命令执行的沙箱、长期记忆、对敏感操作的人工审批,以及执行前的"计划"模式。 整个技术栈也作为托管云服务提供,支持按需启动——代理休眠时不收任何费用。 这表明微软正认真对待与 Anthropic、LangChain 在代理市场的竞争。 对于已经在构建代理的团队来说,这是一个可信的多元化替代方案——不一定更好,但有大厂背书和集成云生态。

03

LangChain 发布一个开源代理,其唯一职责是保持项目文档与代码同步

在几乎每个技术团队里,文档都落后于代码:开发者改了代码,忘了更新 README,三个月后再没人看得懂 API。 LangChain Labs 刚刚发布了 OpenWiki,一个做反向工作的开源代理:它扫描代码仓库,识别代码中改动了什么,然后以 pull request 的形式提议更新文档。 当维护者修改了提议后,代理会学习团队的编辑风格,并在下次应用。 对于负担不起专职技术写手的小团队来说,这相当于一个帮你闭环文档的助手——免费,且不打断现有的 Git 流程。 该项目使用一种新的长期记忆("Wiki Memory"),记住每个项目的偏好。

04

Patronus AI 融资 5000 万美元,用于在模拟数字世界中压力测试 AI 代理

传统的基准测试衡量模型在固定问题上的表现。 但它完全无法告诉你当代理被丢进真实环境、需要处理故障、敌对用户或自相矛盾指令时会发生什么。 Patronus AI,这家由前 Meta 员工创立的纽约初创公司,在 6 月 29 日完成了 5000 万美元的 B 轮融资,要成为这一新学科——真实环境下的代理评估——的专家。 平台构建"数字世界"——带有虚拟用户、API、随机故障和提示注入的模拟器——代理被投入其中并被观察。 对于希望在敏感领域(金融、医疗、法律)将代理投入生产的公司来说,这是缺失的质量保障层。 对大众来说,这证明 AI 代理不再是玩具:它们成为关键软件,需要像任何工业系统一样进行压力测试。

05

LeapXpert 融资 1.8 亿美元,成为 AI 审计企业通信的标杆平台

在银行或政府机构,当顾问通过 WhatsApp 与客户讨论贷款时,没人确切知道说了什么——而法律要求对话必须被存档并可审计。 LeapXpert,这家纽约平台,在 6 月 30 日完成了 1.8 亿美元的成长轮融资,要在大规模上解决这个问题。 其平台捕获 WhatsApp、iMessage、Signal 和微信上的对话,用 AI 层进行解读,并实时标记合规风险——就像一个数字税务审计员,读每一条消息,并在有越线时提醒你。 这笔资金用于向公共部门和超大型企业扩张。 对任何考虑企业 AI 的人来说,这是一个信号:客户现在为合规和可追溯性付出的代价,与为模型能力付出的代价一样多。

📡 值得关注

Anthropic、亚马逊、微软和谷歌共建的越狱严重性评分新框架,可能成为全球标准

随着 Fable 5 重新上线,Anthropic 和另外三家大厂发布了一个共同框架,用于对越狱(绕过安全护栏的技术)的严重性进行分级。 如果该标准被其他厂商(OpenAI、Meta)采纳并被美国监管机构验证,它将成为决定何时必须限制模型的全球参考。 值得关注:OpenAI 和 Meta 是否加入、商务部是否验证、是否可能应用于中国开源权重模型。

微软代理框架会成为欧洲 Claude Code 的标杆替代品吗?

MAF 是开源的,由微软支持,Python SDK 与大多数现有技术栈兼容。 如果 Azure Foundry 在欧洲的部署起飞——监管正在推动本地云解决方案——MAF 将成为摆脱对 Anthropic 单一依赖的可信替代。 值得关注:欧洲银行和政府的 Azure Foundry 部署。

代理评估市场正在整合——谁会在 2027 年前成为"AI 代理的穆迪"?

Patronus AI 并不孤单:LangSmith、Arize、Langfuse、Helicone、WhyLabs 和 Fiddler 也在代理评估和可观测性领域布局。 市场很可能围绕两到三家领头羊进行整合。 值得关注:厂商收购、与 OpenAI 和 Anthropic 的官方合作、开源项目(OpenAI Evals、HuggingFace LightEval)。

微软、Notion、GitHub 或 Linear 会回应 LangChain 的 OpenWiki 吗?

OpenWiki 是一个其唯一职责是保持仓库文档与代码同步的代理——微软、Notion、GitHub 和 Linear 可以把这项服务原生集成到它们现有工具中。 如果其中一家把一个等效代理作为产品标配功能集成进去,LangChain 的优势就会消失。 值得关注:社区 fork、在 GitHub Copilot、Cursor 或 Linear 中的原生集成。

📊 趋势

2026 年 7 月 2 日表明,代理技术栈进入了它的工业成熟期。 三层同时涌现:基础模型(Fable 5 在暂停三周后回归,标志着监管本身成为一种生产参数)、 编排工具(微软代理框架和 LangChain OpenWiki 在开源代理框架领域与 LangGraph 和 Anthropic Agent SDK 并列布局)、 以及评估和治理层(Patronus AI 和 LeapXpert 合计融资 2.3 亿美元,押注代理质量保障和通信审计)。 对于用 AI 构建的人来说,结论是:一个严肃的代理产品再也离不开经过验证的安全框架、上线前的评估层、以及针对受监管行业的审计层。 "晚上做的原型"变成了关键软件,需要与银行系统同等的安全保障。