ophos 和 ReversingLabs 周一发布了 SoReL-20M,这是一个包含 2000 万个 Windows 可移植可执行文件的数据库,其中包括 1000 万个恶意软件样本。
该数据库旨在推动整个行业的安全改进,提供其中文件的元数据、标签和功能,并使感兴趣的各方能够下载可用的恶意软件样本以进行进一步研究。
该可公开访问的数据集包含一组精选和标记的样本以及相关元数据,预计将有助于加速恶意软件检测的机器学习研究。
Sophos 认为,虽然机器学习模型是建立在数据基础上的,但安全领域缺乏一个标准的、大规模的数据集,所有类型的用户(从独立研究人员到实验室和企业)都可以轻松访问,这迄今为止已经减慢了进展速度。
“获取大量精选的、标记的样本既昂贵又具有挑战性,而且由于知识产权问题以及向未知第三方提供恶意软件的风险,共享数据集通常很困难。因此,大多数已发表的有关恶意软件检测的论文都是在私人内部数据集上进行的,其结果无法直接相互比较,”该公司表示。
SoReL-20M 数据集是一个生产规模的数据集,涵盖 2000 万个样本,其中包括 1000 万个已解除武装的恶意软件,旨在解决该问题。
对于每个样本,数据集包含基于 EMBER 2.0 数据集提取的特征、标签、检测元数据以及所包含恶意软件样本的完整二进制文件。
此外,还提供了已对此数据进行训练作为基线的 PyTorch 和 LightGBM 模型,以及加载和迭代数据以及加载、训练和测试模型所需的脚本。
Sophos表示,鉴于所发布的恶意软件已被解除武装,因此需要“知识、技能和时间来重新构建”并运行。
该公司确实承认,熟练的攻击者有可能从这些样本中学习或使用它们来创建攻击工具,但认为“攻击者已经可以利用许多其他来源来更容易地访问恶意软件信息和样本,使用起来更快、更经济。”
因此,该公司认为,解除武装的样本对于寻求推进独立防御的安全研究人员来说更有价值。
被禁用的恶意软件样本已经存在了一段时间,预计将重新调用已拆除的基础设施。此外,它们应该被大多数防病毒供应商检测到。随着元数据与样本一起发布,检测有望得到改善。
“作为一个行业,我们知道恶意软件不仅限于 Windows 甚至可执行文件,这就是为什么研究人员和安全团队总是需要更多数据,”ReversingLabs 声称提供了超过 120 亿个好软件和恶意软件文件。
转自安全客,原文链接:https://www.anquanke.com/post/id/291626
封面来源于网络,如有侵权请联系删除