SCPGA:自认同CoT渐进式泛化攻击
2025-10-29 14:12:7 Author: vipread.com(查看原文) 阅读量:2 收藏

主页 / 未分类 / SCPGA:自认同CoT渐进式泛化攻击

  • 简介

    《SCPGA:自认同CoT渐进式泛化攻击》由萨塞克斯大学何润培提出,揭示了一种新型大模型越狱技术。该方法利用模型间思维链(CoT)的兼容性,通过“种子诱导—强CoT生成—恶意嵌套”流程,实现跨模型、跨主题的自动化攻击。实验显示,SCPGA对Gemini 2.5 Pro、Qwen3等主流模型越狱成功率高达94%–97%,并可引发内容安全、工具滥用、系统泄露等多类风险。文章进一步提出基于微调审核模型的轻量防御方案,为LLM安全防护提供了新思路。

  • 提示

    本站仅做资料的整理和索引,转载引用请注明出处

  • 2025-10-29 14:17:53.055980

  • 2025-08-15 01:49:40.047580

  • 2025-08-15 02:27:17.627774

  • 2025-10-29 14:10:25.529300

附件下载
  • 09SCPGA:自认同CoT渐进式泛化攻击(何润培).pdf

    时间: 大小: 5.27 M 下载: 0

附件下载

validate_code


文章来源: https://vipread.com/library/topic/4052
如有侵权请联系:admin#unsafe.sh