谷歌DeepMind发布AI控制路线图——从内部确保代理安全
谷歌DeepMind发布了AI控制路线图(6月18日),这是一个纵深防御框架,将AI代理视为潜在的内部威胁。路线图定义了15项具体措施、4个检测级别(D1-D4)和3个响应级别(R1-R3),按模型能力递增索引。已投入生产:100万条代码代理轨迹已分析,实时监控保护Gemini Spark。网络安全手册正被应用于LLM领域。
2026年6月21日 · 5条(网站)· 8条(数据库)
谷歌DeepMind发布了AI控制路线图(6月18日),这是一个纵深防御框架,将AI代理视为潜在的内部威胁。路线图定义了15项具体措施、4个检测级别(D1-D4)和3个响应级别(R1-R3),按模型能力递增索引。已投入生产:100万条代码代理轨迹已分析,实时监控保护Gemini Spark。网络安全手册正被应用于LLM领域。
Saviynt推出了Agent Access Gateway及意图感知运行时授权(IARA),解决了无人提问的问题:代理登录后能做什么?传统控制(RBAC、OAuth)验证应用访问——而非特定工具调用。IARA在上下文中评估每个工具调用:分配的任务、代表的用户、相关资源、预期行为。四个部署阶段。代理零信任:永不信任,始终验证上下文。
谷歌DeepMind、Schmidt Sciences、ARIA、Cooperative AI Foundation和Google.org启动了1000万美元的研究提案征集,聚焦多代理AI安全(6月11日)。核心问题:当来自不同组织的数百万代理自主交互时会发生什么?四个研究方向:沙盒、代理网络科学、代理基础设施(身份、声誉)和监督控制。资助最高100万美元。截止日期:2026年8月8日。安全对话正从单模型对齐转向群体规模治理。
微软在BUILD 2026上展示了其开源代理框架(MAF)的重大更新。Agent Harness提供生产就绪模式:Shell访问、文件系统记忆、ToDo追踪、计划/执行模式、技能注入、并行子代理扇出和带持久规则的ToolApprovalAgent。Hosted Agents在Foundry Agent Service上运行,支持scale-to-zero、每会话VM沙盒和OpenTelemetry可观测性。CodeAct在单一沙盒中结合规划+Python执行,支持多会话并行。MAF 1.0正式版统一了AutoGen+Semantic Kernel。
2026年6月开源综述确认代理工具生态正在爆发。OpenClaw获得37.7万+ GitHub星标(Docker沙盒)、Hermes Agent来自Nous Research(技能编译器)、smolagents来自Hugging Face(约1000行Python——代理极简主义),OpenHands获得7万+星标(自主编码工作区)。信号明确:代理基础设施正在迅速商品化。你不再需要专有平台来运行生产代理。
DeepSeek的Harness团队正在北京积极招聘。随着CATL 73亿美元融资(估值490亿美元)到位,DeepSeek Code资金充足。DeepSeek-TUI已有25,000+ GitHub星标。若以V4-Pro的MIT许可权重和10-15倍更便宜的推理发布,将直接威胁Claude Code和Cursor。
Sam Altman确认预训练于2026年3月底完成。Fable 5在FrontierMath第4层达88%(对比GPT-5的75%),DeepSeek V4-Pro以MIT权重发布,代理控制讨论升温——Spud的发布时机变得至关重要。市场期待其能否重夺代理领先地位。
Saviynt的IARA和DeepMind的控制路线图汇聚于同一见解:代理安全不在于登录,而在于运行时的意图验证。授权层作为独立类别正在比预期更快地形成。代理身份、运行时授权和审计跟踪的标准预计在2026年下半年出台——NIST和OWASP值得关注。
DeepMind主导的1000万美元基金标志着多代理治理研究的正式启动。当代理自主交易(Coinbase for Agents)、执行代码(CodeAct)并跨组织运作时,谁来监督这个生态系统?基金的四个研究方向精确映射了将治理代理经济的整个技术栈。
代理安全与控制层正成为2026年夏季的关键问题。6月21日凝聚了四个汇聚信号:控制(DeepMind的路线图将代理视为内部威胁——15项措施、4个检测级别、100万条轨迹),授权(Saviynt的IARA解决登录后问题——上下文感知的运行时验证),规模(1000万美元多代理安全基金——数百万代理交互时会发生什么?),和基础设施(微软MAF 1.0正式版)。对齐对话正从'模型会友善吗?'转向'我们如何监控、授权和约束数百万生产中的自主代理?'安全行业刚刚发现了下一个十亿美元级垂直领域。