强化学习在游戏和推荐系统领域取得了令人瞩目的成果。在智能WEB安全攻击系统中,我们同样将攻防对抗作为一个游戏让强化学习智能体去玩。
我们设计了绕过动作库类比于玩游戏时的操作动作,安全产品和靶机代表游戏的environment,给智能体反馈告诉它发送的数据包是否绕过防护并成功执行,智能体根据反馈和当前状态(state)来选择下一步变异动作。利用强化学习强大的决策能力来学习面对不同WAF时如何绕过防护执行攻击。