随着人工智能技术的快速发展,大语言模型在安全领域的应用成为了一个热门话题。2024年10月23日,看雪·第八届安全开发者峰会于上海圆满落幕,除了9个精彩的技术议题外,一场围绕AI展开的圆桌会谈同样备受瞩目。
本次圆桌会谈的主题是“从安全到大语言模型——风险、挑战与未来”,由【北京赛博英杰科技有限公司创始人:谭晓生】主持,邀请了4位不同领域的专家,分别是【胡文友:北京金睛云华科技有限公司联合创始人&副总裁】、【王欣:杭州安恒信息技术有限公司高级副总裁、安恒研究院院长】、【何淇丹Flanker:京东集团首席安全研究员&高级总监、獬豸实验室负责人】、【王振兴:深信服首席安全官、深信服千里目安全技术中心 CTO】,五位专家围绕“AI for Security”这一话题展开了深入而激烈的探讨。
3个核心问题:【帮助有哪些】、【什么地方会有惊喜】、以及【坑有哪些】
*以下为整理后的速记内容:
谭晓生(主持人):
一个新技术刚出来的时候,搞安全的人通常会思考两个问题:一是怎么用该技术搞安全增强安全防护,二是技术本身可能带来的安全风险,这是一体的两面性。
今天的圆桌环节就来谈一谈怎么用大模型搞安全?安全领域长期面临人才短缺的问题,安全教指委曾指出安全人才缺口高达140万至300万。作为安全从业者,我们深知培养这些人才的挑战:大学每年培养的安全专业人才不足3万,即使加上非正规教育途径,一年也不足10万。在这种情况下,满足人才需求显得不切实际。
用户(甲方)也面临着安全成本高昂的问题,他们需要建立安全团队并投资购买安全设备,但即便如此,安全问题依然难以完全解决。从去年开始,利用AI技术进行安全防护的趋势愈发明显,这并非新现象,从80年代末的专家系统到后来的机器学习、深度学习等,AI在安全领域的应用历史悠久。在之前的云栖大会上,我与几位安全专家讨论后得出一个精辟的观点:人工智能在安全领域的应用是“常常有帮助,偶尔有惊喜,还有很多坑”。今天,我们将围绕这个观点,探讨AI for security 什么地方会有帮助?什么地方又会有惊喜?以及都有哪些坑?希望为在座的开发者提供有价值的信息。
AI for security 的进展及应用?
谭晓生(主持人):
首先想和几位探讨一下AI在安全领域的应用。深信服已经推出了4.0版本的Security GPT,而安恒和金晴云华都在2.0版本。请你们来谈谈目前在 AI for security方面的进展如何以及达到的效果?
何淇丹Flanker:
我们目前主要是两个方面。首先第一方面应用于业务层面,比如为用户提供导购服务,黄赌毒图片的识别、风险订单识别等。其次在安全方面,用于识别钓鱼邮件和提高事件响应的自动化和准确性。此外,我们也在探索利用AI进行漏洞研究和挖掘。
说实话这些领域的应用确实没有达到一个非常颠覆性的效果,但帮助肯定是有的。比如说知识库机器人,使用大模型知识库GraphRAG,可以处理员工咨询安全问题、举报事件、合规咨询等,效果明显,可以减少很多人力投入,目前可能80%的问题都可以由机器人解决。在漏洞挖掘方面,目前还在做一些论文的落地,尝试用大模型提高静态分析的资源利用率,减少资源消耗,因为静态分析的最大问题是资源爆炸。我们也正在使用微调的GPT和LMA模型,并结合CVE信息库以及特定领域的漏洞语料和分析文章进行尝试。
王振兴:
AI在各行各业都非常的火,在网络安全领域也是如此。深信服这些年,主要还是深耕安全检测、安全运营这两个领域。具体来说:首先是安全检测。我们利用AI技术对WEB流量进行检测,包括漏洞猎捕和威胁检测。
例如,我们的Web流量检测引擎在2024年的实战攻防演习中成功猎捕了200多个漏洞。在钓鱼攻击检测方面,检测率达到了96%,这比传统的检测方法有显著提升。此外,我们还针对钓鱼攻击,利用AI大模型的文本理解能力,提高了检测的准确性。对于高级威胁攻击,我们通过AI智能体技术进行自动化的调查取证,这比传统的人工方式更加智能和高效。另一方面是安全运营大模型,通过人机交互机制,使安全运营过程更加自动化。
王欣:
在AI for Security领域,首先,我们利用AI减轻了安全从业人员的重复性工作负担,提高了产品与服务能力。例如说同事在开发一些安全产品,会做一部分的代码编程辅助。市场部写新闻稿、做视频宣传视频、行销或者招投标能出方案辅助。其次,回到大模型方面,在安全运营、告警分析、调查取证等方面都取得了显著成效,尤其是在数据安全领域,如API安全、DLP(数据防泄漏)和数据分类分级。
我们目前能够将告警数量从每天的数十万到百万级别降低到数百到数千级别,减少了99%的工作量,使得安全人员能够集中精力处理最关键的告警。此外,在数据分类分级方面,AI将效率提升了80倍,从人工处理1000个提升到日均8万个,整体业务流程的效率提升了25到30倍。在DLP方面,AI通过理解非结构化文档的内容,有效识别和分类,这是传统方法难以实现的。AI技术在安全领域的最大惊喜在于它能够模拟人与人之间的连续性思维较量,这是传统安全防护体系所缺乏的。
谭晓生(主持人):
我接着补充下,之前在进行AI for Security领域的调研时,我特别关注了数据安全领域的一项突破性进展。安恒在数据分类分级方面取得了显著成果,其效率提升了惊人的25倍。传统上,这项工作需要大量人工投入,但通过使用AI技术,70%的工作可以由机器自动完成,而人工仅需处理剩余的20-30%。考虑到用户应用系统的复杂性,如成千上万的表格和字段,这种自动化处理大大减轻了工作负担。尽管安全公司在数据分类分析方面的利润并不高,但采用大型AI模型进行数据分类分级,不仅提高了效率,而且准确度也超过了人工操作。最终,人工只需进行确认即可。这一成果不仅展示了AI在提升效率方面的潜力,也为数据安全领域带来了革命性的变革。
胡文友:
我们公司专注于威胁检测和安全运营,从目前的实践来看,我认为大模型在威胁检测领域的优势在于WEB攻击检测和加密流量检测,尤其是其泛化能力强。原来小模型做加密流量检测的时候,内部的交叉验证实验可能做到百分之九十几,真正在现网的话能做到百分之七八十就不错了。但是现在我们用大模型去做加密流量检测,包括CobaltStrike、蚁剑、冰蝎这种加密通讯,其泛化能力特别强,基本上学习了某个家族的部分样本后,就能检测整个家族。
在安全运营方面,我们主要利用程序语言大模型进行载荷复检,从效果来看显著降低了WAF、流量探针IDS等的误报率,从原来的40-50%降至约1%,实现真正的降噪。另外一方面还结合传统技术如关联分析、去重和聚合,这些并非大模型技术,但对整体安全运营同样重要。
AI for security 有哪些“坑”?
谭晓生(主持人):
在刚才的讨论中,通过4位的分享我们了解了AI for security的多样化应用,包括业务层面的辅助、安全检测、安全运营、漏洞挖掘、数据安全等方面。也分享了在提高效率、减少人力投入、提升检测准确性等方面的显著成效。这些进展不仅展示了AI技术的潜力,也为网络安全领域带来了革命性的变化。
接下来,我们将转向一个更加深入的话题——AI for Security的挑战和潜在问题。那么请各位讲讲过去在AI for security 里都踩过哪些“坑”?希望大家的前车之鉴能够让在座的诸位今后少走一些弯路。
王振兴:
我想从检测和运营两个方面来谈一谈。在检测领域,网络攻击特征与正常特征高度相似,如钓鱼和隐蔽攻击,如果数据量不足或上下文关联不充分,模型就可能出现误判。此外,一些正常软件如通讯和游戏软件,也可能表现出WebShell或后门特征,如果数据学习不全面,也会导致模型误判。数据训练中,人工标记的原始数据质量参差不齐,以及第三方供应链引入的问题,都会影响检测效果。
谭晓生(主持人):
振兴刚刚提到了一个巨大的“坑”,数据工程耗费大量人力资源,如果做得不好,会直接影响训练效果,这是一个典型的坑。
王振兴:
在运营领域,大模型的落地需要用户参与,包括算力投入、软件硬件投入,以及业务接口和设备接口的开放,以便大模型能更好地发挥作用。许多用户对AI技术持观望态度,他们认可AI在网络安全领域的成果,但在真正投入时会考虑投入产出比。新兴技术的发展往往由少数人推动,业务成熟后,其时代才会真正到来。
何淇丹Flanker:
我们安全团队也面临着来自业务部门的挑战,他们对我们的要求甚至比外部客户更加严格和苛刻。使用大模型时,我们面临几个问题,比如数据分类分级错误可能导致数据脱敏和生产问题,这是安全团队难以承受的一个故障,也是目前客户经常挑战我们的一个问题。此外,大模型的不可解释性。这在漏洞研究中尤为明显,因为现在大模型它的能力其实不足以支撑一些比较复杂漏洞,有时它会错误地识别漏洞,导致我们浪费大量时间复现,最终发现是误报、是它的幻觉。这是一个非常让人恼火的现象,目前也暂时也没有想到很好的办法。
谭晓生(主持人):
说到这里,你觉得在漏洞挖掘方面,大模型提供的帮助更多,还是给你带来的麻烦更多?
何淇丹Flanker:
这要从两个角度看,对于可以直接验证的场景,如FUZZ harness生成,大模型很有帮助,因为幻觉可以迅速被验证或推翻。至于在漏洞挖掘方面,大模型是帮助更多还是麻烦更多,这取决于场景。例如,静态分析的场景中,大模型可以用来分析叶子节点函数,减少传统静态分析的时间和资源爆炸问题。
谭晓生还提到张超老师使用深度学习方法进行Fuzzing的种子选择和变异。对此,Flanker补充道,张超提到的是种子选择和变异策略,而大模型在Fuzzing代码生成方面落地更好。例如,我们想Fuzz一个库,大模型可以帮助我们自动生成入口函数和调用库函数的代码,这是一个成熟且有效的应用场景。
王欣:
我非常喜欢这个话题,因为过去几年在做大模型的过程中,我觉得到处都是“坑”。首先,将大模型应用于安全领域相比于AI应用在客服等场景下,技术门槛高很多。安全领域对AI模型的综合能力要求很高,而且安全相关的数据和问题并不在通用大模型的关注范围内,需要通过增量预训练和微调等方式构建垂域模型。第二,在安全应用中,偏向于工业级场景,具体场景中对工程实现以及性能方面都面临挑战,尤其是在成本和推理性能上,过去我们做了许多优化。再者,行业对大模型在安全领域的期望过高。许多人希望AI模型能解决传统方法无法解决的安全问题,但目前AI模型的技术成熟度还不足以满足所有期望。
谭晓生(主持人):
这里有个矛盾点,你刚才讲的内容就已经给了我们很高期望,数据分类分级效率一下子提升了80倍、安全降噪降3个数量级。
王欣:
整个行业对AI在安全领域的应用需求其实更加旺盛。许多传统工程难以解决的问题,人们希望AI能够提供解决方案。但AI模型在当前阶段应该找到其在解决这些问题中的合适位置,这还在探索和与客户不断沟通的过程中。
谭晓生(主持人):
现在能否总结一下你认为AI在安全领域中哪些方面还需要长期发展?
王欣:
从大模型的角度来看,有几个小坑需要克服。有些问题AI模型无法解决现有安全需求,有些则可以通过外部方法解决。核心问题包括推理性能、上下文长度、幻觉问题和指令遵循问题。例如像推理性能的问题,现在业界可能说希望基于原始流量来分析,事实上即使使用较小参数的模型,面对原始流量的推理性能也不足,我们研究判定,利用大模型技术来实现原始流量分析的场景在当前阶段并不满足。越小参数的模型它本身的逻辑性就没有这么聪明,所以我认为在这个点上不合适的。此外,复杂的工程场景,如漏洞挖掘,需要大量的前置处理,然后再让大模型在里面去发挥一部分的价值。数据更新和指令遵循也是挑战,AI模型的输出有时不稳定,因此我们将其定位为辅助工具,而非完全自动化的安全运营。
胡文友:
首先我觉得第一点,早期在第三方大模型上的投入过大,过度依赖第三方基模型。市场上不断有新的大模型出现,本身的演进特别快,使得跟随最新模型变得困难,且难以保持技术领先。一旦选错基模型,就会面临巨大的转换成本。第三方基模型的好坏不是由用户决定的,这增加了不确定性和依赖性。通过解耦大模型与框架,实现了随时切换不同大模型的能力,减少了对单一基座大模型的依赖。通过解耦大模型与框架,实现了随时切换不同大模型的能力,减少了对单一基座大模型的依赖。
第二点是通用大模型的高成本和低性能。参数规模越大,成本越高,性能越差,且大部分知识与安全领域无关,导致资源浪费。于是我们开始自研小参数的大模型,叫做程序语言大模型(PL-LLM,Program Language Large Language Model)。起初自研的专用于威胁检测的程序语言大模型在初期1.0版本的效果比通用大模型差远了。但随着迭代到今年6月底,效果还是挺不错的,成本降低,性能提高,最终证明是一个正确的方向。
再一个目前大模型存在性能问题,无法实现实时检测。我们采取数据分层策略,底层使用传统技术进行流量检测分析;中层利用30多个小模型处理加密流量、WEB攻击、网络异常和恶意变种检测;上层使用参数较少的大模型处理,每秒能处理5000至7500个事件,基本满足需求;最上层则使用自然语言处理大模型进行安全运营和降噪。
基座模型的选择上,有什么策略?
谭晓生(主持人):
刚刚提到了基座通用大模型,那在基座模型的选择上,你们是什么策略?
胡文友:
我们采用了MOE架构,并集成了多个基座模型,包括LLaMA和千问等五六个不同的模型。关键在于我们实现了这些模型的解耦,这意味着我可以灵活地在框架中切换不同的基座模型。因此,我们不会受限于任何一个特定的基座大模型。
王振兴:
我们采用“大模型+安全智能体”的模式,而不是频繁更换模型。不同的场景和任务需要不同的基座模型,因此我们会根据不同的需求选择和使用不同的模型。
Flanker:
我们整个集团是有一个大模型网关的,依据是否涉及数据出境来选择基座通用大模型。对于不涉及数据出境的问题,我们倾向于使用与微软Azure合作的GPT私有版本。而对于有数据出境要求的问题,则主要考虑使用国产大模型,没有特定的首选,也是根据具体需求和场景来选择最合适的国产模型。
王欣:
我们整体是AI Agent架构(AI 智能体),通过AI Agents规划、执行、反思等来实现具体的安全场景的任务。其中Plugin层面,我们包括了各类安全工具,也包含一些小参数模型。在选择基座大模型的过程中,我们经历了几个阶段,从使用国外的模型到国内的模型。同时,我们也在评估其他模型,如果发现更合适的,我们也会投入资源进行训练。由于我们面向的场景众多,我们还建立了一套完整的评测体系,因为不同模型之间最终的结果会有差异。
谭晓生(主持人):
其实在3个月前我做过调研,调研的结果是当时国内做AI for security 的厂商超过一半,用的是通义千问,因为通义千问它的参数, Open source的参数相对来说比较多。之前也有用GLM的,有用LLaMA的,有Mistral的等等多个模型,基本上出来了新的开源模型就试试,因为新的模型出来有可能之前棘手的问题瞬间就被解决掉了。
本届圆桌会谈聚焦于“从安全到大语言模型——风险、挑战与未来”,探讨了AI在安全领域的应用、进展、挑战和潜在问题。五位专家们分享了AI在业务辅助、安全检测、安全运营、漏洞挖掘和数据安全等方面的应用案例,并讨论了AI技术在提高效率、减少人力投入和提升检测准确性方面的显著成效。同时,也指出了AI在安全领域应用中的“坑”,包括数据质量问题、模型误判、不可解释性、技术投入与期望管理等问题。在基座模型的选择上,专家们提出了不同的策略,包括集成多个基座模型、依据需求选择模型、以及结合大参数和小参数模型等方法。总体而言,AI for security 的应用前景广阔,但也面临着技术、成本和应用效果等多方面的挑战。
球分享
球点赞
球在看
点击阅读原文查看更多