AI加持下的互联网反欺诈 | 反欺诈AI全域治理三部曲(中)
星期三, 十二月 30, 2020
继上篇文章反欺诈AI全域治理三部曲(上)中介绍了互联网反欺诈模型体系建设过程中无法忽略的6个层面的问题,重点对原始案件数据标注、历史案件深度挖掘问题进行深层次剖析,介绍了常用经典方法、适用场景及优劣势对比。本文将从问题提出的必要性及重要性、通用技术手段及应用场景角度,对专家经验规则自学习机制,风评模型可解释性问题作系统全面的介绍,欢迎大家讨论交流。
在大数据时代背景下,金融犯罪和金融欺诈的新手段层出不穷,日渐趋于科技化、专业化、规模化,也更具有隐蔽性,由过去的单兵作战演变成有规模、有组织的团伙欺诈,严重制约了传统的专家知识库、专家经验规则持续有效地发挥作用,亟需解决两方面问题:
(一)规则阈值、权重
(二)新风控规则
新欺诈规则挖掘,根据规则中所处理的值类型分为两类:
本质是频繁项集挖掘,常用到算法包括Apriori、FpGrowth。
人工智能算法模型正在对金融行业产生重大影响,前提是要了解AI算法的优势和局限性,以及适合在金融领域发挥作用的场景。当我们在金融业务中使用AI算法,期望通过可度量的方法对模型结果进行分析、解释,以期对算法进行优化,对业务进行方向性的指导,确保模型与要解决的业务问题保持一致,即模型解释性分析问题。模型的解释性分析可帮助模型开发人员及业务运营人员了解并解释模型中包含和未包含的特征因素,及特征如何影响模型结果。
广义上,模型的解释性分析目的是全局定义特征对模型的影响,同时定义单个特征对模型的个性化影响;更好的理解模型行为,更好的进行相应的业务决策;通常对机器学习模型分为“白盒”模型和“黑盒”模型:
(一)“白盒”模型
“白盒”模型如线性、Logistic回归模型,预测能力较弱,但是简单易理解。线性关系如信贷欺诈与人口统计学特征、经济收入等的相关性。决策树模型(RandomForest vs XGBoost vs LightGBM)是目前业内公认可解释性较好的非线性机器学习算法,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据,决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用;白盒模型特征明确,逻辑简单,本身具备可解释性。
针对“白盒”模型,我们可以从数据分布图、特征重要度、Embedding可视化、独立特征分析(PDP)、全局性分析(SHAP)、局部特征信息(LIME)、特征相关性(相关系数)等维度提供分析技术。
(二)“黑盒”模型
“黑盒”模型使用复杂的机器学习算法(深度网络学习)训练数据,输入特征经过组合变换,维度变换等特征工程步骤,需要分析及调整数据与模型,确保模型结果与要解决的问题保持一致;然而这些模型的内部机制难以理解,也无法估计每个特征对模型预测结果的重要性以解释模型结果与输入的特征属性潜在的关联关系,更无法直接理解不同特征之间如何相互工作(数据的相关性不等价于因果关系)。
针对“黑盒”模型,我们可以从深度网络结构分析,风评结果命中团伙关联图谱角度去解释模型有效性。
关联图谱提供丰富的图构建、图查询、图分析、图嵌入、图挖掘技术,通过社区检测、关键节点分析、关联分析、异常网络结构发现等场景化算法和模型,提供风控和营销等场景化辅助决策服务。如信用卡养卡套现识别,养卡套现团伙往往都与黑商户沟通,正常养卡阶段,消费的商户相对固定,而通过遍历关联图谱的方式,能够基于上述行为特征建立欺诈关联图谱,识别养卡套现团伙。
风控场景对于数据、模型、特征的可解释性,稳定性要求是重点,可解释性和稳定性仍然需要结合业务和专家经验进行判断。
芯盾时代是业务安全产品和服务提供商,率先提出“以人为核心的业务安全”理念的公司。芯盾时代持续引领业务安全技术发展方向,以人工智能赋能信息安全,为客户提供场景化全生命周期业务安全防护方案,助力客户打造安全、智能、可信的业务体系。