The Agent Watch
简报 文章 工具 关于 EN FR DE ES 中文 IT PT SV FI DA

每日简报

2026年6月28日 · 5条要闻(站点) · 6条要闻(底库)

🔥 头条

01

阿里发布一个模拟器,能在智能体行动前就预测会发生什么

自动驾驶汽车上路前,要先在模拟环境里跑上百万公里。阿里(Qwen)本周发布的Qwen-AgentWorld,为AI智能体做了同样的事。系统在智能体发送真实命令之前,就能预测出终端、浏览器、安卓手机、第三方工具或代码仓库会返回什么结果。结果:智能体可以训练、测试、自我修正,再也不会碰坏真实系统。397B版本甚至在团队自有的测试上击败了GPT-5.4,并且全部以Apache 2.0开源。对于想把智能体投入生产环境的团队来说,这意味着一个真正可用的沙盒——就像每个智能体在上路前都有自己的专属试车场。

02

微软现在要求每次智能体行动前都需人工确认

以前,企业里的智能体可以悄悄删文件、发邮件、改数据库,谁都不知道。微软在6月25日把它的Microsoft Agent Framework更新到1.11.1版本,并改了规则:默认情况下,智能体使用的每个工具都必须经过人工明确批准。实际上,再也没有任何敏感操作可以自动触发了。同时还有:Telegram成为托管智能体的官方渠道;GitHub Copilot集成进入稳定版。该项目在GitHub上已经有11,700颗星,正在成为企业智能体的参考底座之一。这就像终于在工厂的每根电线上都装上了「确认」按钮——智能体依然强大,但再也不会自己乱动了。

03

Scaled Cognition融资1亿美元,打造宁可沉默也不编造的AI

你给银行打电话投诉一笔转账时,不想听到一个即兴发挥的智能体。然而通用模型在生产环境里大约三次就会出错一次——这在银行、医疗、保险行业是绝对不能接受的。Scaled Cognition在6月25日(由Khosla Ventures领投)融资1亿美元,从零开始构建一个承诺永远不会给出错误答案的模型。公司没有在现有模型上贴一个安全滤镜,而是从底层重写了整套AI,专门为可靠性而设计。结果:模型体积更小、成本更低,但在不确定时会拒绝回答——而不是瞎编。Genesys(为8000家组织提供客服服务)已经在使用它。赌注是:用企业自己拥有和管理的AI劳动力,取代外包呼叫中心(一个6000亿美元的市场)。

04

Spring创始人推出Embabel,连接20年Java代码与AI智能体的桥梁

如果你在一家大银行、保险公司或政府机构工作,你们的IT系统几乎可以肯定跑在Java上——而且已经跑了很久。著名Spring框架的创始人Rod Johnson在4月9日发布了Embabel——一个用Kotlin编写、完全兼容Java、免费开源(Apache 2.0)的新工具,让这些机构不用重写一切就能搭建AI智能体。思路是:让AI只决定它擅长的部分,其余仍用经典规划算法——和90年代以来电子游戏中用的一样。智能体的每一步决策都可解释、可审计,这在受监管的行业里至关重要。对全球2000万Java开发者来说,这是把AI智能体带进真实经济系统最可信的途径——而且不用从零开始。

05

一款开源AI自己学会了更好地组织编程方式

大多数写代码的AI,只是回答你提出的问题。创业公司DeepReinforce在6月25日以MIT许可证(免费、无限制)发布了Ornith-1.0模型家族——思路很不一样:在训练过程中,模型不只学怎么写代码,还学如何改善自己组织工作来写代码的方式。训练得越多,它发现更好的「研究路径」就越多——有点像一个学生,在整个学年里,不仅学了知识,还学会了更好的复习方法。最大的模型(3970亿参数)在SWE-Bench Verified基准测试上达到82.4%,超过了大多数闭源模型。而且它能直接对接开发者已经在用的工具:OpenHands、Hermes Agent、OpenClaw。对想要一个能随时间进化的智能体的团队来说,这是一条完全免费、零门槛的入口。

📡 值得关注

环境模拟器正在成为一种独立的基础设施门类

本周有Qwen-AgentWorld(阿里),上周有Patronus Digital Worlds,而且已经有专门的基准测试:「训练智能体的模拟世界」正在成为一个独立的市场。信号很清晰:在真实世界里直接训练智能体成本太高、周期太长、风险太大。未来几周值得关注的是:OpenAI、Anthropic或Google DeepMind中,哪家会发布自己的环境模拟器。

默认安全正在成为企业智能体的硬性前提

四天里,三个相关消息:微软默认要求人工审批(6月25日);Runlayer融资3000万美元成为智能体的控制面板(6月24日);F5收购SurePath AI加码安全(6月24日)。信号非常清楚:没有身份、权限、审计这一层,生产环境里的智能体就会失控。这和2010年代网络安全走过的路一样——先是IT话题,后来成为每家公司的关键职能。

「第一天就内置」的可靠性 vs「事后打补丁」的可靠性

Scaled Cognition(1亿美元)和DeepReinforce(Ornith)都赌一件事:你不能在通用模型上简单贴一层安全滤镜。他们的判断:可靠性必须从一开始就被设计进去,而不是事后补上。如果其中任何一家在银行、医疗或保险行业兑现承诺,目前由少数通用模型主导的市场格局就可能被改写。

开源在智能体任务上超过了闭源模型

随着Ornith-1.0(MIT,397B参数下SWE-Bench Verified达82.4%)和Qwen-AgentWorld(Apache 2.0,AgentWorldBench第一名)的出现,开源已经在智能体专属基准上追平并超过了闭源模型。对CTO们的信号:在智能体相关的工作流上,专业模型已经胜过通用模型。对预算的影响:当一个免费模型在具体任务上做得更好时,又多了一个不为闭源模型支付天价的理由。

📊 趋势

2026年6月28日,是智能体AI缺失的几块拼图同时到位的这一周。(1)成本与真实感:Qwen-AgentWorld让你在碰到真实世界前,先在模拟世界里训练智能体。(2)安全:微软默认要求人工审批,与此同时整个「智能体治理」类别正在浮现。(3)可靠性:Scaled Cognition(1亿美元)押注在「不确定时就沉默而不是编造」的AI上。(4)通往现有系统的桥梁:Rod Johnson用Embabel给数百万Java开发者打开了智能体的大门,又不用重写一切。(5)开源赢了:DeepReinforce证明了一个免费模型可以在智能体基准上击败闭源对手。当这些拼图同时出现,智能体经济就不再是实验室里的实验,而是真正的产业。