Fuzzing4LLM:撬动大语言模型的安全对齐机制
2025-11-19 15:1:4 Author: vipread.com(查看原文) 阅读量:0 收藏

  • 简介

    《Fuzzing4LLM:撬动大语言模型的安全对齐机制》由科大讯飞梅瑞提出,发布进化式越狱框架 ForgeDAN:通过字符-词-句多级扰动、场景假设/角色扮演变异与语义适应度评估,自动生成高隐蔽性对抗提示,在 DeepSeek、Qwen 等模型上攻陷率最高达 98%;并构建双维度判别器,精准区分拒绝/顺从与安全/有害输出,显著降低假阳性。报告同步给出覆盖越狱、投毒、跨模态、智能体等 20 + 场景的 AI 安全评测体系,以及多层防护、人机协同、数据全生命周期治理的主动防御方案,为大模型安全对齐提供从攻击到评测再到治理的完整闭环。

  • 提示

    本站仅做资料的整理和索引,转载引用请注明出处

  • 2021-11-08 11:07:35.223612

  • 2025-08-10 12:58:21.769108

  • 2025-09-04 13:15:29.470073

附件下载
  • 4- Fuzzing4LLM:撬动大语言模型的安全对齐机制--梅瑞.pdf

    时间: 大小: 3.72 M 下载: 1


文章来源: https://vipread.com/library/topic/4067
如有侵权请联系:admin#unsafe.sh