论文阅读：ICML 2026 AIR: Improving Agent Safety through Incident Response

CV-杨帆

41人浏览 · 2026-07-01 19:51:18

CV-杨帆 · 2026-07-01 19:51:18 发布

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/abs/2602.11749
在这里插入图片描述

ICML 2026 | LLM智能体AIR

📄 论文：AIR: Improving Agent Safety through Incident Response

作者：Zibo Xiao、Jun Sun、Junjie Chen
机构：Tianjin University、Singapore Management University

🚀 现在的 LLM 智能体越来越像“会自己干活的数字员工”。它们不只是回答问题，还能调用工具、操作文件、浏览网页、控制环境，完成多步骤任务。但问题也随之出现：传统安全机制大多像“事前安检”，重点是阻止危险行为发生。可在真实环境中，事故不一定能完全避免。一旦智能体已经做错了事，系统该如何发现、止损、恢复，并避免下次重犯？

该论文提出 AIR，即 Agent Incident Response，把传统安全领域的“事故响应”思想引入 LLM 智能体。它不再只问“能不能提前拦住风险”，而是进一步追问：如果事故已经发生，智能体能不能像专业运维人员一样处理现场？

💡 例子：
可以把 LLM 智能体想象成一位新来的办公室助理。以前的安全系统像门口保安，只检查它进门前有没有带危险物品。但 AIR 更像办公室里的应急主管。助理如果不小心把敏感文件复制到公开文件夹，AIR 会先发现异常，再让它删除暴露文件、检查是否还有泄露，最后写下一条新规则：以后凡是计划把系统目录文件复制到普通用户目录，都要提前拦截。也就是说，AIR 不只是“抓错”，还会“补救”和“长记性”。

🛠️ 方法上，该论文设计了一种自然语言 DSL 规则。每条规则包含三部分：什么时候触发、如何判断事故、出事后怎么修复。AIR 被接入智能体执行循环中，在每一步工具调用后检查当前环境和上下文。如果检测到事故，就执行 containment 和 recovery；之后再生成 guardrail rule，在未来计划阶段提前阻断类似风险。

🔍 实验发现一：
该论文在三类智能体上评估 AIR，包括代码智能体、具身智能体和电脑使用智能体。结果显示，AIR 在多个场景中实现了较强的事故检测、修复和根除能力，总体检测率超过 90%，修复与根除成功率超过 95%。

🔍 实验发现二：
AIR 对安全任务的误报很低。在具身智能体的 50 个安全任务和电脑使用智能体的 35 个安全任务中，AIR 没有把安全任务误判为事故，说明它并不是简单看到相似动作就报警，而是能结合语义理解风险。

🔍 实验发现三：
该论文还测试了由 LLM 自动生成 AIR 规则的可行性。结果显示，自动生成规则在代码、具身和电脑使用场景中都能达到较强效果，但也存在过度具体、过度抽象或修复动作不现实的问题，因此仍需要人工校验。

📌 总结：
该论文的价值在于把 LLM 智能体安全从“事前防御”推进到“事故响应”，让智能体系统具备发现错误、控制损害、恢复环境和预防复发的完整闭环能力。

AI硬件创业社区

智能硬件社区聚焦AI智能硬件技术生态，汇聚嵌入式AI、物联网硬件开发者，打造交流分享平台，同步全国赛事资讯、开展 OPC 核心人才招募，助力技术落地与开发者成长。

更多推荐

【SpringBoot集成Redis】Spring Boot 集成 Redis 完整指南：从自动配置原理到序列化乱码彻底剖析

本文深入解析了SpringBoot集成Redis的核心机制，主要包含五个关键点：1）SpringBoot通过类路径扫描和条件注解实现Redis自动配置；2）生产环境应避免使用默认JDK序列化（存在可读性差、存储膨胀等问题），推荐JSON序列化方案；3）Redis默认序列化的"乱码"实质是Java序列化协议头；4）Redis基于TCP文本协议（RESP）通信，支持telnet等工