日益激增的安全数据推动了对数据建模,数据管理和数据规范的需求。
过去五年来,安全数据收集、处理和分析已经实现了爆炸式增长。实际上,最近通过 ESG 对安全分析的研究发现,28% 的受访组织声称他们收集、处理和分析的安全数据明显多于两年前;而在同一时间段内,另外 49% 的组织正在收集、处理和分析更多的数据。
那么究竟是什么类型的数据呢?凡是你能说的出的,包括网络元数据、端点活动数据、威胁情报、DNS(域名系统)/ DHCP(动态主机配置协议)、业务应用数据等等。除此之外,我们也不要忘记来自 IaaS(基础设施即服务)、PaaS(平台即服务)和 SaaS(软件即服务)的安全数据的冲击。
安全数据的大规模增长带来了许多后果,主要包括以下几个方面:
1. 需要更好的安全数据建模和管理
根据 SAS software 的调查数据显示,花在数据分析上的大约 80% 的时间都是用于数据建模和管理的。随着网络安全数据量的增长,我注意到了这方面的趋势。组织正在花费更多的时间来确定要收集什么数据、需要什么数据格式、在哪里以及如何路由数据、数据重复删除、数据压缩、数据加密、数据存储等问题。
基于日益增长的数据管理需求现状,ESG 的安全运营和分析平台体系结构 (SOAPA) 由一个通用的分布式数据管理层来支持,该层旨在为所有安全数据提供这些类型的数据管理服务。由于大多数组织都在逐步采用 SOAPA,所以应该尽早考虑安全分析数据模型。简单来说,就是考虑一下您想要完成什么,然后返回到所需的数据源。
2. 寻求数据合成,丰富和情境化
所有的安全数据元素都可以彼此关联,但是说起来容易做起来难。在过去,许多组织依赖安全人员和电子表格来关联由不同分析工具生成的安全事件和警报。当网络流量分析 (NTA) 工具检测到可疑流量时,分析人员就会抓取源IP地址,调查 DHCP 服务器的 IP 租用历史,弄清楚涉及到哪个设备,然后挖掘由该设备发出的历史日志文件。
考虑到这些手动任务的低效性,我们已经看到市场对于点对点分析工具集成以及像 SOAPA 这样的架构集成表现出了更大的需求。行为分析——诸如用户和实体行为分析 (UEBA)——正通过一系列嵌套机器学习 (ML) 算法抽取多个同时发生的安全数据事件,来显示一些数据综合的前景。没错,行为分析是一项正在进行的工作,但对于最近看到的一些创新之举和进步我还是感到十分鼓舞。
3. 高性能的要求
大型组织正在监控数以万计的系统,这些系统每秒会生成超过 20,000 个事件,而且每天会收集数 TB 的数据。面对如此庞大的数据量,组织需要高效的数据管道和正确的网络、服务器以及存储基础设施,才能够实时地移动、处理和分析这些数据。为了满足实时数据管道的需求,我看到了 “Kafka 实现消息总线”的广泛应用。不要忘记,我们需要足够的马力来查询 TB 到 PB 的历史安全数据,以便进行事件响应和回溯性调查。这种需求导致了基于开源(如ELK stack、Hadoop等)和商业产品的安全数据湖的激增。
4. AI
好消息是,所有这些数据为数据科学家提供了充分的机会,来创建和测试数据模型,开发 ML 算法,并对其进行高精度调整。但坏消息是,我们刚刚开始联合数据科学家和安全专业人士,以开发用于安全分析的 AI 技术。先进的首席信息安全官们具有现实的态度。他们的希望是 AI / ML 可以通过提供更多背景证据,增加风险评分环境等来提高个人安全警报的准确性。换句话说,AI / ML 充当智能防御层,而不是独立的“安全分析全知神”。
5. 基于云计算的安全分析
毫无疑问,许多组织正在质疑,将大量资源仅用于收集、处理和存储 TB 级甚至 PB 级的安全数据作为现代安全数据分析需求的先决条件是否明智。使用大规模的、可扩展的基于云的资源不是更容易实现该目的吗?根据我对市场的观察,答案是肯定的。IBM 和 Splunk 报告称,其基于云的 SIEM 增长势头强劲。SumoLogic声称拥有超过 2000 名客户,而谷歌 (Chronicle Backstory) 和微软 (Azure Sentinel) 则是基于云的安全分析领域的新亮点。期待亚马逊也能加入到该行列中。随着安全数据的不断增长,将安全分析 “提升并转移” 至云端的势头只会越来越猛。
著名科技作家 Geoffrey Moore 曾说过,“如果没有大数据分析,公司就会变得又瞎又聋,像高速公路上的鹿一样在网上游荡。” 虽然 Moore 谈论的只是网络早期阶段的现象,但这句话却同样适用于安全分析。没错,组织可以通过强大的安全分析极大地提高其降低风险、检测/响应威胁以及自动化安全操作的能力。然而,想要实现这些成果,首席信息安全官们必须从一开始就对安全数据建模、管道和管理进行充分的规划和努力。
相关阅读