光大银行数据挖掘平台最佳实践案例

项目及挑战
随着大数据和互联网+时代来临,大数据成为商业银行在市场竞争重要手段之一。新的市场和业务变化推动商业银行向智能化转型。
数据挖掘平台(信用卡风险管控模型)是光大银行实现业务智能化过程的重要的平台系统,光大目前使用的信用卡风险管控模型已在线运行多年,在信息化竞争中已显现出一定的局限性,新的市场和业务变化对传统数据挖掘方法带来挑战。传统数据挖掘建模、数据挖掘模型管理功能已不再适应新兴市场业务与大数据环境,亟待对数据挖掘平台的分析建模环境组件升级,引入大数据分析工具和产品支持新环境下的数据化决策。
基于数据挖掘平台,光大银行业务部门使用传统数据挖掘技术建模支持了业务的风险管理、产品定价、客户营销。其中,信用卡中心已在线运营的传统模型覆盖客户行为分析管理、营销分析、风险评估、交叉销售、产品管理等领域。应对新形势下的市场竞争,提出引入外部征信数据和内部行为数据结合的数据建模的应用需求。
外部第三方数据引入尝试有效地降低了业务不良率,可作为人民银行征信和原有内部模型的重要补充。从业务需求和扩展性角度出发,本次项目对数据挖掘平台升级充分考量信用卡风险管控应用的业务需求,实现风险管控核心数据模型重构和迁移,支持信用卡业务持续性拓展和创收。通过大数据分析挖掘技术在客户管理、产品定价、风险管理、客户营销等领域运用,提升数据模型的业务有效性,在大数据环境下具备业务决策应变能力。
以信用卡风险管控为代表的新型的业务决策模式,对光大银行原有数据挖掘平台提出新的需求:1、数据快速决策时效性要求;2、多样性的海量数据处理与运用(如:外部征信数据、内部行为数据等)、3、可控成本的全量数据建模。
技术方案
解决方案
技术上引入基于大数据分布式计算的数据挖掘组件(包括软硬件及部署实施),突破传统数据建模方法限制,把有价值的外部数据和内部动态行为数据,与传统数据有机地结合,使数据挖掘平台具备大数据挖掘能力,实现面向业务发展、客户营销、风险预警与识别、产品组合定价等方面的大数据分析与挖掘的持续创新能力。
应用上结合目前信用卡中心业务发展所面临的新局势,针对信用卡业务发展过程中建立的一系列数据模型(分期业务评分、客户提升、信用卡额度调整、客户生命周期管理、客户消费偏好、客户价值模型、风险逾期概率、客户违约率、客户流失预测等 ),挑选部分模型试点应用数据挖掘平台大数据挖掘组件进行模型的移植、验证和优化。
方案最大亮点
本项目主要从分布式计算存储和大数据挖掘建模引擎两个部分讨论技术方案。分布式计算存储有两种方案,分别是使用行内规划的大数据应用开发平台,或者新建独立平台。
方案一:使用行内规划的大数据应用开发平台,与行内规划建设大数据应用开发平台项目一致,可以充分利用资源。
方案二:新建独立平台,会造成行内维护多套大数据应用开发平台,增加成本,且不符合整体规划要求。
大数据挖掘建模引擎有两种方案,分别为基于成熟的分布式控件或者进行自主研发:方案一:基于成熟的分布式控件,以及传统的数据挖掘平台,可实现挖掘模型的平稳部署及分布式计算,且与目前业务人员操作一致,可满足业务需求。基于目前的策略模型部署和冠军/挑战者功能模型的基础,利用分布式并行化运算技术,实现目前的已经运行模型,逐步替换现有的数据分析处理模型,实现功能替换。同时利用分布式平台技术的开放性特点,可以增加新的分析处理模型,提供信用卡内部的风险控制能力和水平。方案二:自主研发分布式挖掘引擎,因为建模引擎技术难度较高,项目进度及成本控制均存在较大风险。
经过综合评估和前期项目催收模型的poc测试,本项目计划采用基于成熟分布式控件升级数据挖掘平台相关组件,分布式计算存储技术选择行内规划的大数据应用开发平台。
其他方案的缺点: 由于机器性能等原因限制,只能实现基于抽样数据的分析、处理、建模;一般只处理结构化的数据类型;用于风险监管需求的专业分析挖掘建模算法;基于成熟的软件产品,部署在小型机上,成本较高。
本方案的优点:数据挖掘平台具有开放性、可伸缩性、可用性、易操作性、易维护性、安全性、可移植性,是一个符合先进性和前瞻性的分析平台。该平台充分汲取国内外先进经验,针对某商业银行信用卡中心开展的业务实施了个性化建设方案,分析平台基于分布式海量数据存储与计算环境,提供图形化交互式数据处理和分析工具,提供丰富的数据分析与挖掘算法,以及交互式可视化分析工具,以服务的方式为各业务部门提供服务。这种系统实现策略不仅符合大数据应用的发展趋势,同时也满足卡中心对于数据分析系统的可用性、时效性和低成本等方面的要求。
具体部署
技术方案架构设计
总体架构
逻辑架构
物理架构
主要功能模块设计
功能模块1
大数据存储与计算模块:接收信用卡相关内外部大数据,进行数据有效性验证,导入分布式计算平台。
功能模块2
大数据挖掘建模模块:提供海量数据、全量数据建模引擎,支持信用卡客户行为评分模型、申请评分模型的移植与优化。
功能模块3
模型管理模块:提供策略模型定义功能,使用本功能在平台中定义新的策略模型,同时对平台中已存在的策略模型进行管理,并提供策略模型监控及调整功能。提供策略运行环境,并采用冠军/挑战者方式,对策略进行训练,以测试策略调整的有效性。
功能模块4
系统管理模块:
主要负责平台系统的整体运行状态的监控管理,监控集群组件的运行状态,登录用户使用权限控制;各类模型任务的监控调度处理。
技术架构特点
采用开放架构体系,底层基于开源hadoop集群搭建上层业务应用,能够实现底层技术组件的灵活升级,保证上层技术体系与技术发展的紧密结合,保证系统架构的先进性。针对算法部分能够实现开源算法的实时接入,保证系统对于基础算法的支持能力。
架构层面充分考虑未来业务应用的友好、易用性,实现模型训练的全生周期管理,整个业务处理过程均采用图形化界面可见模式,提高系统易用性,解决技术层面的复杂性。
新技术方案前后的分析对比,成果展示
有助于通过客户的各种信息,形成统一的客户视图。
银行的客户服务绝大多数以帐号为中心来进行,同一客户的不同帐号可能分散在不同的计算机系统内,难以获得对客户统一全面的了解,因此也难以对客户的潜在需求和盈利程度进行准确的分析,从而导致无法实现个性化服务,使银行逐渐丧失竞争优势。所以通过建立一套统一的数据挖掘分析平台对决策进行支持是实现个性化服务的必要手段。
有助于卡中心了解自身经营状况。
决策者只有全面了解自身的经营状况,卡中心经营才能高效、安全。数据仓库和数据挖掘分析技术为商业银行及时、准确、全面地掌握自己的资产数据及其分布、信贷资产分布、客户的信用等情况,提供了必要的服务手段和有力的技术支持。
有助于卡中心进行市场细分。
开发新产品,拓展新市场,获得”深度效益”。卡中心只有将客户细分到相应的市场,才能抓住真正创造利润的客户群体,进而针对创利群体.开发新产品,拓展新市场,获得”深度效益”,而非通过提供千篇一律的金融服务和产品来获得”规模效益”。
有助于卡中心经营管理和决策支持。
经营管理方案的确定和未来战略决策的产生,都是以对现实的分析和对未来的预测为基础的,都是要以准确的数字为依据的。借助数据仓库和数据挖掘分析技术能进行不同银行产品的盈利性分析和风险性分析,使卡中心能够综合运行不同平台上的业务数据,结合外部信息,提出经营策略。
有助于商业银行风险防范。
数据仓库的建立和数据挖掘的开展能帮助卡中心随时调用与自己有业务往来的客户的历史和现实业务数据,并能据此推断出客户的信用情况,为减少内部经营风险创造了条件。与此同时数据挖掘还可以结合社会外部环境的相关经济数据,帮助银行掌握同业经营状况和国际经济发展趋势,减少外部经营风险。
基于信用卡中心数据积累基础,通过数据底层的标准化集成实施,建立支持全面数据挖掘分析管理应用的整合性数据平台;为各类分析管理应用提供标准化数据或新建各类应用,满足信用卡中心关于数据标准和口径的一致性要求。未来考虑预留新技术整合接口,以数据挖掘分析相关技术在金融领域上的经验为基础,建设信用卡中心统一的数据挖掘分析平台。
经验总结
业务能力提升:
在数据挖掘建模过程中,数据清洗是将导入数据过程中产生的重复的或不一致的数据,按照规则统一进行处理,从而保证每条数据的一致性和唯一性。在该处理阶段,采用的处理技术为天云hadoop大数据平台的mapreduce分布式数据处理技术,该技术能将一个大规模数据的处理任务分拆成多个独立的计算子任务,然后将子任务分配给hadoop集群的每台数据节点上执行本地的数据处理,因此,能够利用多台集群节点机器来快速完成一个大的数据处理任务,并且具有良好的扩展性,能够随着集群节点的数量增加其整体处理性能呈近似线性增长,由于本系统要处理的数据是全国的数据,处理规模十分庞大,因此,通过hadoop的mapreduce数据处理技术完全能够保证在指定的时间内完成本项目数据迁移的大规模数据处理任务。
在数据挖掘建模过程中,可知社交图谱的数据源于多种数据源,这些数据源提供的数据都是来源于收集上来的全国的数据,因此数据规模比较庞大,而且随着未来数据源的不断扩充,未来数据的增长速度也非常快。传统存储技术由于其扩展能力瓶颈的问题,很难支撑如此大规模数据的存储以及未来数据快速增长的需求,而采用天云hadoop大数据平台的hdfs分布式文件,由于其自身的分布式存储设计,可通过分布式存储节点数量的扩充来灵活满足不同规模数据的存储。
传统的数据挖掘建模模型算法都是采用单机机器进行,处理能力有限,速度比较慢。采用天云大数据的挖掘模平台,实现算法分布式运行处理,可以快速运行算法,从而大大加快了本项目的模型算法孵化进程。
提供ai模型训练的全生命周期管理,降低了模型训练所需周期,提升模型训练效率,从基础数据选择、数据解析、模型算法选择、模型训练、模型效果评估、模型优化到模型发布全流程的图形化界面操作,改变了原有模型训练业务多系统人员参与的模式,每年减少千万级it投入。
最大创新点:
实现数据能力服务化是光大银行大数据发展模式之一,整体框架包括大数据技术层、数据基础层、智能化引擎层和数据应用层等四个组成部分。其中大数据挖掘平台用于模型探索孵化,数据产品应用系统用于模型的场景化封装部署;二者相辅相成,共同支持从实验室到工厂化的大数据分析挖掘。
用户点评:
建设中国光大银行大数据挖掘平台将当前流行的挖掘算法资源与大数据挖掘技术的软硬件资源进行整合,对外统一算法模型的建模、分析、处理等服务能力,实现对建模过程的统一管理支持、对平台运行环境和状态的统一监控管理,实现了用户权限...