文稿深入探讨了随着大型语言模型(LLM)与AI智能体(Agent)能力日益强大,所带来的严峻安全挑战。
报告指出了几大核心风险领域:
这些风险源于模型指令遵循、泛化、推理等能力的提升。
为应对这些挑战,报告提出了一套多层次的Agent安全设计框架。该框架以模型安全对齐为基础,通过对齐算法(SFT, RL)和数据,使LLM具备基本的安全与权限意识。在此之上,通过Agent框架层面的安全设计,如Prompt优化、角色权限管控等进行加固。最后,设置输入输出过滤作为兜底策略,拦截恶意内容。