每日简报

2026年6月28日 · 5条要闻(站点) · 6条要闻(底库)

🔥 头条

阿里发布一个模拟器，能在智能体行动前就预测会发生什么

自动驾驶汽车上路前，要先在模拟环境里跑上百万公里。阿里（Qwen）本周发布的Qwen-AgentWorld，为AI智能体做了同样的事。系统在智能体发送真实命令之前，就能预测出终端、浏览器、安卓手机、第三方工具或代码仓库会返回什么结果。结果：智能体可以训练、测试、自我修正，再也不会碰坏真实系统。397B版本甚至在团队自有的测试上击败了GPT-5.4，并且全部以Apache 2.0开源。对于想把智能体投入生产环境的团队来说，这意味着一个真正可用的沙盒——就像每个智能体在上路前都有自己的专属试车场。

Source: github.com/QwenLM/Qwen-AgentWorld

微软现在要求每次智能体行动前都需人工确认

以前，企业里的智能体可以悄悄删文件、发邮件、改数据库，谁都不知道。微软在6月25日把它的Microsoft Agent Framework更新到1.11.1版本，并改了规则：默认情况下，智能体使用的每个工具都必须经过人工明确批准。实际上，再也没有任何敏感操作可以自动触发了。同时还有：Telegram成为托管智能体的官方渠道；GitHub Copilot集成进入稳定版。该项目在GitHub上已经有11,700颗星，正在成为企业智能体的参考底座之一。这就像终于在工厂的每根电线上都装上了「确认」按钮——智能体依然强大，但再也不会自己乱动了。

Source: github.com/microsoft/agent-framework/releases

Scaled Cognition融资1亿美元，打造宁可沉默也不编造的AI

你给银行打电话投诉一笔转账时，不想听到一个即兴发挥的智能体。然而通用模型在生产环境里大约三次就会出错一次——这在银行、医疗、保险行业是绝对不能接受的。Scaled Cognition在6月25日（由Khosla Ventures领投）融资1亿美元，从零开始构建一个承诺永远不会给出错误答案的模型。公司没有在现有模型上贴一个安全滤镜，而是从底层重写了整套AI，专门为可靠性而设计。结果：模型体积更小、成本更低，但在不确定时会拒绝回答——而不是瞎编。Genesys（为8000家组织提供客服服务）已经在使用它。赌注是：用企业自己拥有和管理的AI劳动力，取代外包呼叫中心（一个6000亿美元的市场）。

Source: globenewswire.com — Scaled Cognition $100M

Spring创始人推出Embabel，连接20年Java代码与AI智能体的桥梁

如果你在一家大银行、保险公司或政府机构工作，你们的IT系统几乎可以肯定跑在Java上——而且已经跑了很久。著名Spring框架的创始人Rod Johnson在4月9日发布了Embabel——一个用Kotlin编写、完全兼容Java、免费开源（Apache 2.0）的新工具，让这些机构不用重写一切就能搭建AI智能体。思路是：让AI只决定它擅长的部分，其余仍用经典规划算法——和90年代以来电子游戏中用的一样。智能体的每一步决策都可解释、可审计，这在受监管的行业里至关重要。对全球2000万Java开发者来说，这是把AI智能体带进真实经济系统最可信的途径——而且不用从零开始。

Source: github.com/embabel/embabel-agent

一款开源AI自己学会了更好地组织编程方式

大多数写代码的AI，只是回答你提出的问题。创业公司DeepReinforce在6月25日以MIT许可证（免费、无限制）发布了Ornith-1.0模型家族——思路很不一样：在训练过程中，模型不只学怎么写代码，还学如何改善自己组织工作来写代码的方式。训练得越多，它发现更好的「研究路径」就越多——有点像一个学生，在整个学年里，不仅学了知识，还学会了更好的复习方法。最大的模型（3970亿参数）在SWE-Bench Verified基准测试上达到82.4%，超过了大多数闭源模型。而且它能直接对接开发者已经在用的工具：OpenHands、Hermes Agent、OpenClaw。对想要一个能随时间进化的智能体的团队来说，这是一条完全免费、零门槛的入口。

Source: github.com/deepreinforce-ai/Ornith-1

📡 值得关注

环境模拟器正在成为一种独立的基础设施门类

本周有Qwen-AgentWorld（阿里），上周有Patronus Digital Worlds，而且已经有专门的基准测试：「训练智能体的模拟世界」正在成为一个独立的市场。信号很清晰：在真实世界里直接训练智能体成本太高、周期太长、风险太大。未来几周值得关注的是：OpenAI、Anthropic或Google DeepMind中，哪家会发布自己的环境模拟器。

默认安全正在成为企业智能体的硬性前提

四天里，三个相关消息：微软默认要求人工审批（6月25日）；Runlayer融资3000万美元成为智能体的控制面板（6月24日）；F5收购SurePath AI加码安全（6月24日）。信号非常清楚：没有身份、权限、审计这一层，生产环境里的智能体就会失控。这和2010年代网络安全走过的路一样——先是IT话题，后来成为每家公司的关键职能。

「第一天就内置」的可靠性 vs「事后打补丁」的可靠性

Scaled Cognition（1亿美元）和DeepReinforce（Ornith）都赌一件事：你不能在通用模型上简单贴一层安全滤镜。他们的判断：可靠性必须从一开始就被设计进去，而不是事后补上。如果其中任何一家在银行、医疗或保险行业兑现承诺，目前由少数通用模型主导的市场格局就可能被改写。

开源在智能体任务上超过了闭源模型

随着Ornith-1.0（MIT，397B参数下SWE-Bench Verified达82.4%）和Qwen-AgentWorld（Apache 2.0，AgentWorldBench第一名）的出现，开源已经在智能体专属基准上追平并超过了闭源模型。对CTO们的信号：在智能体相关的工作流上，专业模型已经胜过通用模型。对预算的影响：当一个免费模型在具体任务上做得更好时，又多了一个不为闭源模型支付天价的理由。

📊 趋势

2026年6月28日，是智能体AI缺失的几块拼图同时到位的这一周。（1）成本与真实感：Qwen-AgentWorld让你在碰到真实世界前，先在模拟世界里训练智能体。（2）安全：微软默认要求人工审批，与此同时整个「智能体治理」类别正在浮现。（3）可靠性：Scaled Cognition（1亿美元）押注在「不确定时就沉默而不是编造」的AI上。（4）通往现有系统的桥梁：Rod Johnson用Embabel给数百万Java开发者打开了智能体的大门，又不用重写一切。（5）开源赢了：DeepReinforce证明了一个免费模型可以在智能体基准上击败闭源对手。当这些拼图同时出现，智能体经济就不再是实验室里的实验，而是真正的产业。