The Agent Watch
简报 文章 工具 关于 EN FR DE ES 中文 IT PT SV FI DA

每日简报

2026年6月27日 · 5条要闻(站点) · 6条要闻(底库)

🔥 头条

01

Sail Research让长时间运行的Agent便宜十倍

想象一个Agent用三天时间串起几百个小任务去解决一个问题。今天,运行这种Agent贵得离谱:服务器就不是为这种工作设计的。Sail Research拿到了8000万美元(由Sequoia和Kleiner Perkins领投),专门解决这个痛点。他们的承诺:对长时间运行的Agent来说,成本可以比标准方案低十倍。在一个很难的基准测试(连续多天的复杂网络搜索)上,Sail创下了新纪录——正确率90.72%,而价格只有常规的十分之一。对一家想真正部署一个会思考、而不是两秒钟就回答的Agent的中小企业来说,这是账单即将变得可以承受的信号。就像Uber Pool让长途出租车变得可负担:同一段路,完全不同的价格。

02

Vercel推出免费框架,每个Agent就是一个文件夹

今天造一个AI Agent就像在黑暗里堆乐高:一点代码、一个库、一台服务器,部署完后没人知道Agent跑哪儿去了。Vercel(Next.js背后的公司)在6月17日发布了一个免费的工具叫eve,反其道而行之。这里一个Agent就是一个文件夹:一份明文指令文件、小工具、可复用的知识卡片——全部像普通代码文件一样可读、可改。开箱即用:Agent运行的安全空间、按时叫醒它的日程表、还有Slack、Discord或GitHub的聊天连接。一个完整的Agent用一个命令一分钟就能创建好。有点像当年WordPress取代手写HTML来写博客:现在造Agent是在一个文件夹里完成,而不是散落在500个文件里。

03

Claude学会按时自动启动,并把你的密码藏起来

以前,要让一个AI Agent每天早上7点干活,你得搭一个定时启动的服务器——IT圈外很少有人会这个。Anthropic在6月9日给自己的Claude平台加了两个被呼吁已久的功能。第一个:Agent可以被排程在固定时间自己启动,每天或每周,完全不用人管。第二个,更重要:密码和API密钥(那些解锁你账号的暗号)现在存放在一个独立的保险库里。Agent在最后一刻使用它们,从不看到明文,也不会出现在对话记录里。实际上,Agent现在可以每周一自动发送一份财务报告,或者每晚用你的真实凭证做一次备份——不用担心凭证泄露。

04

Scaled Cognition融资1亿美元,打造在银行和医疗领域从不编造答案的Agent

你打电话给银行要争议一笔转账时,你不想听到一个Agent在即兴发挥。然而通用大模型在生产中大约三次就有一次会出错——这对银行、医疗或保险是不可接受的。Scaled Cognition在6月25日拿到了1亿美元,要从零打造一个承诺绝不给出错误答案的模型。他们不是在已有模型上加一个安全过滤器,而是把整个AI为了可靠性重写了一遍。结果:模型刻意做得更小、更便宜,但当它不确定时会拒绝回答——而不是胡编。押注方向:用企业自有的AI劳动力,替换大型企业外包的呼叫中心(一个6000亿美元的市场)。

05

Patronus AI建造虚拟世界,让Agent先训练再碰真实世界

自动驾驶车上路前,先在数百万公里的模拟环境里训练——雨天、夜里、行人突然冲出。Patronus AI对AI Agent做同样的事。这家创业公司在6月25日拿到了5000万美元,并推出「数字世界模型」:真实网站和企业软件的虚拟复制,Agent在这里训练,然后才真正动手操作。Agent做对了就奖励,作弊就惩罚——比如胡乱勾选只为快速交差。公司一年里营收翻了15倍;几乎所有顶级AI实验室都是它的客户。对部署Agent的团队来说,这意味着可以全规模测试——而不会拿真实客户数据冒险。

📡 值得关注

Runlayer融资3000万美元,成为大型企业的Agent「控制面板」

当任何员工都可以创建一个Agent去碰Salesforce、生产代码或HR数据时,需要有人点头或摇头,知道要花多少钱,并把一切都记下来。Runlayer在6月24日拿到3000万美元,正是要做这个控制位:一个点来保证Agent安全、观察它们的行为、并揪出员工偷偷部署的那些。客户包括Instacart、Gusto、Decagon、Lemonade。Agent治理正在成为一个独立的市场。

Agent治理:缺失的那一层正在全速搭建

四天内,三则关于同一主题的公告:Vercel Passport(6月17日)、F5收购SurePath AI(6月24日)、Runlayer获投3000万美元(6月24日)。信号很明确:没有身份、权限和审计这一层,生产中的Agent是无法控制的。和2010年代的网络安全一样——起初被视为IT话题,后来成为每个企业的关键职能。

「从第一天就内建」的可靠性 vs 「事后加装」的可靠性

Scaled Cognition做了一个激进的赌注:你不能把可靠性当成过滤器贴在通用模型上面。他们的模型从零重写,承诺在所覆盖的工作流中不出错。如果这条路在银行和医疗领域立得住,可能会重新洗牌市场——目前市场上被几个通用模型主导,它们主要在演示时亮眼。

Agent的成本正在成为新的战场

让一个Agent跑一周,今天的成本是一次普通聊天的100到1000倍。Sail Research直击这个痛点。加上上周融资15亿美元的Baseten,以及Modal,Agent基础设施正在成为一个独立的投资类别。在接下来的十二个月里,推理运行时、安全沙箱和Agent平台之间很可能出现整合。

📊 趋势

2026年6月27日是AI Agent完整栈同时搭建的一天。本周,三块缺失的拼图出现了。(1)成本:Sail Research证明了Agent可以以常规十分之一的价格连续运行数天。(2)工具箱:Vercel通过押注于看起来就像简单文件夹的Agent,把造Agent变得像建网站一样简单。(3)信任:Scaled Cognition、Patronus AI和Runlayer各自啃下可靠性的一块——不会犯错的模型、抓作弊的训练、监控一切的控制面板。当整条链同时出现时,Agent经济就变成了一个真正的产业——不再是实验室里的实验。