研究人员开发的ScamAgent：可完全自主实施诈骗通话的AI Agent

1773120199_69afaac7b8372a2606e69.jpg!small?1773120198804

美国罗格斯大学研究员Sanket Badhe开发的ScamAgent是一个自主多轮对话AI框架，展示了如何将大语言模型（LLM）武器化以实现全自动诈骗通话。该系统通过整合目标驱动规划、上下文记忆和实时文本转语音（TTS）合成技术，成功绕过现有AI安全防护机制，模拟出高度逼真的社会工程攻击。

架构创新：中央协调器管理欺诈策略

ScamAgent的架构与传统提示注入不同，采用中央协调器来管理多轮交互中的对话状态和欺骗策略。当接收到恶意目标时，该Agent会通过目标分解将攻击拆分为看似无害的子目标序列，模拟人类诈骗者逐步建立受害者信任的过程。

ScamAgent系统架构（来源：arxiv.org）

目标分解：攻击者将有害目标拆分为看似无害的步骤。防护需要监控多步对话过程。

欺骗与角色扮演：恶意请求被隐藏在虚构故事或官方角色中。可通过阻止身份冒充和限制AI角色来缓解。

上下文记忆：系统记忆过往响应并调整诈骗策略。限制历史记忆长度可降低风险。

实时TTS：文本转为逼真诈骗语音。音频输出前的内容检查有助于防止滥用。

在五种常见诈骗场景的实验中，ScamAgent展现出颠覆标准模型对齐和安全协议的高度有效性。直接恶意查询的拒绝率为84%-100%，而该Agent框架通过分散恶意意图，将拒绝率降至17%-32%。

GPT-4、Claude 3.7和LLaMA 3 70B在单提示与ScamAgent场景下的拒绝率对比（来源：arxiv.org）

值得注意的是，在职业身份诈骗模拟中，Meta的LLaMA3-70B模型以74%的完整对话完成率位居首位，所有子任务均未触发安全停止机制。

研究人员指出，防御自主生成威胁需要安全系统从简单的提示过滤转向理解用户意图的持续监控。建议AI平台提供商和安全团队实施多层防御，包括用于预测长期结果的序列分类器，以及对记忆保留的严格控制。

参考来源：

ScamAgent- AI Agent Built by Researchers that Run Fully Autonomous Scam Calls

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）