官方公众号企业安全新浪微博
FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。
FreeBuf+小程序
6月30日,机密计算峰会2023(Confidential Computing Summit 2023)在美国旧金山成功落幕。该峰会由机密计算联盟举办,通过聚焦各行业机构优秀解决方案和实践案例,加速推动机密计算在如医疗、金融等各个行业的应用。峰会当天吸引了微软、Google、Meta、Intel、Nvidia、ARM等来自全球的云服务厂商、机密计算软硬件供应商,以及来自MIT、ETH Zurich等的学术界专家,数十家企业、机构进行了行业优秀案例的主题分享。
字节跳动安全研究团队与Intel BigDL团队出席本次峰会,首次对外展示了Jeddak Sandbox(Jeddak数据安全沙箱)的最新能力—— PPML(Privacy-Preserving Machine Learning),通过向与会嘉宾现场分享PPML如何帮助用户打通“数据孤岛”,呈现了Jeddak Sandbox的产品力和客户价值——为各方数据在机器学习全流程中提供隐私安全的保障,实现数据“可用不可见”的安全合规效果。
一、PPML:打造高效安全的AI体验
Jeddak数据安全沙箱集成了常用的机器学习引擎,提供支持多源数据、可定制化、可调试、高效易用的机器学习能力,帮助用户解决各类AI场景下的隐私合规问题,充分挖掘和发挥数据价值。目前,沙箱已经服务了内外部多个业务的建模、预测场景,为各方数据的全生命周期隐私安全提供保障。
在产品建设上,沙箱团队与Intel BigDL团队展开了深度合作,集成了其提供的安全提升和性能优化手段,以优化产品体验:
- 沙箱集成了BigDL团队的加速方案(如BigDL Nano),让用户能够更快地完成各类计算任务,提高业务执行效率。
- 沙箱采用了BigDL的隐私加强方案,以低成本的方式完成了常用的大数据分析、机器学习框架与TEE的集成,使得沙箱能够在此基础上为用户提供更丰富的产品功能。
二、强大的联合建模工具
沙箱提供了一套强大的联合建模工具,无论是数据拥有方还是经验丰富的算法方都可以根据实际场景需要,轻松地使用沙箱进行隐私保护下的建模,并得到高质量的模型。
- 简单易用。沙箱PPML内置了多种机器学习算法,包括逻辑回归、XGBoost、通用神经网络模型等,帮助用户进行标准化的建模。用户无需编写复杂的代码,通过图形化界面完成数据和参数配置后即可进行建模。沙箱还能根据用户需求提供实时的模型训练指标和评价结果,为用户优化模型提供准确依据。
- 灵活可定制。针对一些复杂场景,沙箱支持定制化建模功能,用户能够更加灵活地进行训练脚本的开发。同时,沙箱还提供调试能力,并在保证数据安全的前提下,使用基于真实数据模拟的调试数据进行运行调试,帮助用户更快速地定位和解决开发中的问题。
- 多重优化。在易用性、安全性和效率方面,沙箱都进行了优化。例如,支持多方数据进行联合建模,并提供数据对齐、I/O加密等功能,帮助用户更好地处理数据。性能方面,沙箱结合了BigDL Nano提供的加速、分布式训练等特性,提高了训练效率和性能。针对分布式训练,也进行了针对性的安全加固,例如采用RA-TLS保护每个分布式节点间的通信。
三、高效的在线预测服务
为了满足用户对数据进行深入分析以及预测的需求,同时快速响应用户的数据变化,沙箱提供了在线的预测能力,用户可以通过沙箱提供的API接口请求已经训练好的机器学习模型,实时地进行预测。
- 专注性能提升。为了提高预测过程中的效率,沙箱进行了一系列的优化。首先,沙箱使用了经过性能优化的在线预测框架。其次,沙箱采用分布式的架构设计,实现快速高效地处理高并发请求。同时,沙箱充分结合BigDL Nano提供的模型优化策略,例如IPEX、JIT、基于半精度(BF16)指令的模型量化等手段,提高预测效率。
- 充分保障安全。沙箱的在线预测不仅具有出色的预测效率,在安全性方面也进行了针对性的设计。首先沙箱支持端到端的通信加密,确保用户的请求只在TEE内被解密。同时,沙箱增加了对模型访问的认证鉴权机制,只有经过授权的用户才能够访问服务,有效地保护了模型的知识产权。
因此,沙箱能够快速、安全、准确的部署训练好的模型,为用户提供高安全和高效率的预测体验。
四、性能总结
安全沙箱团队与Intel BigDL一起对沙箱的建模和预测能力进行了一系列的端到端性能测试。测试结果如下图所示。
可以看到,由于采用了TEE技术,沙箱的建模和预测性能受到了一定程度的影响,但是基于TEE的解决方案与原生方案在性能上并没有明显差异,基本性能损失仅在10%以下(参考Baseline部分)。
通过优化,可以弥补因为TEE引入而带来的性能损耗。实际测试结果表明,在使用了优化后的Nano版本中,沙箱的建模和预测性能比原生方案提高了3倍甚至4倍(参考Baseline与使用Nano优化后的性能差距)。
五、总结与展望
Jeddak数据安全沙箱将持续关注行业发展和技术趋势,不断创新和优化,为用户提供更加安全、高效、易用的PPML解决方案。同时,沙箱将扩展算法支持,完善定制化建模功能和调试能力,并简化操作,使用户能够更方便、快速地开发、调试和使用模型。
同时,沙箱正在研究TEE和GPU的能力集成,实现CPU到GPU全链路可信安全的方案,以提高建模和预测的效率。此外,沙箱也将不断探索包括大语言模型(LLM)在内的新应用场景,推进前沿技术的研究和应用,帮助用户更好地解决业务需求与挑战。