AI 实践 | 应用大语言模型阻断Emotet病毒的传播路径
2023-8-30 18:18:34 Author: www.freebuf.com(查看原文) 阅读量:4 收藏

freeBuf

主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

关于Emotet病毒

Emotet是一种恶意软件或病毒,最初于2014年首次被发现。它被认为是最具破坏性和持久性的恶意软件之一,经常用于进行大规模的网络攻击和数据窃取行为。Emotet病毒主要通过电子邮件传播,并采取了一些方法来欺骗用户和绕过安全防护机制。

在Emotet邮件的传播过程中,病毒会使用加密的压缩包作为附件。这些文档通常是常见的压缩格式,如ZIP或RAR格式。当用户尝试解压它们时,它们会提示用户输入一个密码来解压,同时在邮件正文中提供了相应的密码。这种做法是为了绕过安全网关(邮件网关,或是UTM)对邮件附件的扫描和检测。

LLM带来了新的解决方案

对于加密的压缩包,安全网关通常有下面几种应对方法:

  • 在邮件正文添加警告信息。提示用户注意鉴别压缩包中的文件。
  • 使用预置的密码库尝试对压缩包进行穷举解压。
  • 使用预定义的正则表达式,尝试从邮件正文中抽取解压密码。

显然,上述的方法都无法从根本上解决这个问题。例如,预定义的正则表达式只能覆盖有限的表达方式。不过,随着LLM的到来,我们找到了新方法。

从邮件正文中抽取解压密码可以被看作是一种命名实体识别(Named Entity Recognition, NER)任务,其目标是识别出文本中表示密码的实体。

NER任务通常涉及将文本中的命名实体标记为预定义的类别,如人名、地名、组织机构等。在我们的应用场景中,我们需要识别出表示密码的实体,并将其标记为密码类别。

应用LLM,传统NLP(自然语言处理)领域的NER任务的执行效果有了很大提升。所以,我们可以借助LLM执行NER任务,帮助我们解决抽取密码的问题。

训练数据的准备和标注

选择合适的NLP开发库对于解决我们的问题很重要。在这里,我们选择了 Spacy 开发库。spaCy是一个流行的Python自然语言处理(NLP)库,被广泛用于文本处理和信息提取任务。它提供了一系列高效的工具和算法,


文章来源: https://www.freebuf.com/articles/network/376646.html
如有侵权请联系:admin#unsafe.sh