论文阅读:ICML 2026 AIR: Improving Agent Safety through Incident Response
总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894
https://arxiv.org/abs/2602.11749
ICML 2026 | LLM智能体AIR
📄 论文:AIR: Improving Agent Safety through Incident Response
作者:Zibo Xiao、Jun Sun、Junjie Chen
机构:Tianjin University、Singapore Management University
🚀 现在的 LLM 智能体越来越像“会自己干活的数字员工”。它们不只是回答问题,还能调用工具、操作文件、浏览网页、控制环境,完成多步骤任务。但问题也随之出现:传统安全机制大多像“事前安检”,重点是阻止危险行为发生。可在真实环境中,事故不一定能完全避免。一旦智能体已经做错了事,系统该如何发现、止损、恢复,并避免下次重犯?
该论文提出 AIR,即 Agent Incident Response,把传统安全领域的“事故响应”思想引入 LLM 智能体。它不再只问“能不能提前拦住风险”,而是进一步追问:如果事故已经发生,智能体能不能像专业运维人员一样处理现场?
💡 例子:
可以把 LLM 智能体想象成一位新来的办公室助理。以前的安全系统像门口保安,只检查它进门前有没有带危险物品。但 AIR 更像办公室里的应急主管。助理如果不小心把敏感文件复制到公开文件夹,AIR 会先发现异常,再让它删除暴露文件、检查是否还有泄露,最后写下一条新规则:以后凡是计划把系统目录文件复制到普通用户目录,都要提前拦截。也就是说,AIR 不只是“抓错”,还会“补救”和“长记性”。
🛠️ 方法上,该论文设计了一种自然语言 DSL 规则。每条规则包含三部分:什么时候触发、如何判断事故、出事后怎么修复。AIR 被接入智能体执行循环中,在每一步工具调用后检查当前环境和上下文。如果检测到事故,就执行 containment 和 recovery;之后再生成 guardrail rule,在未来计划阶段提前阻断类似风险。
🔍 实验发现一:
该论文在三类智能体上评估 AIR,包括代码智能体、具身智能体和电脑使用智能体。结果显示,AIR 在多个场景中实现了较强的事故检测、修复和根除能力,总体检测率超过 90%,修复与根除成功率超过 95%。
🔍 实验发现二:
AIR 对安全任务的误报很低。在具身智能体的 50 个安全任务和电脑使用智能体的 35 个安全任务中,AIR 没有把安全任务误判为事故,说明它并不是简单看到相似动作就报警,而是能结合语义理解风险。
🔍 实验发现三:
该论文还测试了由 LLM 自动生成 AIR 规则的可行性。结果显示,自动生成规则在代码、具身和电脑使用场景中都能达到较强效果,但也存在过度具体、过度抽象或修复动作不现实的问题,因此仍需要人工校验。
📌 总结:
该论文的价值在于把 LLM 智能体安全从“事前防御”推进到“事故响应”,让智能体系统具备发现错误、控制损害、恢复环境和预防复发的完整闭环能力。
更多推荐


所有评论(0)