大数据平台建设项目
商业新知 08/20

大数据技术经过近十几年的发展和完善已日渐成熟,并在各行各业产生爆发性的应用。其通过使用新处理模式,为人们提供更强的决策力、洞察力和流程化能 力,大数据技术涉及数据采集、数据存取、统计分析、数据挖掘、模型预测和结果呈现等数据处理加工的各个方面,天然适合重度依赖数据开展业务的银行业。大数据的出现为银行业带来了新的革新动力,能够在客户体验提升、盈利能力提升、风险防控提升等方面发挥强大作用。目前四大国有银行及各大股份制银行已经制定了各自的大数据战略并探索了部分应用场景,中小银行也正在加快大数据建设步伐。

东莞农村商业银行(以下简称“东莞农商银行”)非常重视科技创新在提升客 户体验、创造利润、防范风险等方面的作用,而随着近年来业务的高速发展,历 史数据存储和数据快速增长等问题日益凸显,传统技术对这些问题的解决渐显乏力,因此引入大数据技术不得不提上日程。介于此,东莞农商银行于 2016 年 8 月 启动了大数据平台建设项目,旨在结合大数据的发展趋势和自身的实际情况,建设一个技术先进、功能强大的大数据基础平台,并基于大数据基础平台搭建历史数据查询平台和交易反欺诈应用集市,以此探索东莞农商银行大数据平台的未来规划和实施策略,为今后持续丰富大数据应用,向智能化银行转型奠定基础。

东莞农商银行大数据平台建设项目采用咨询与实施相结合的方式开展,通过与咨询规划能力较强的专业咨询公司及大数据项目实施经验丰富的 IT 公司进行三方合作,使得大数据平台建设项目既有理论支撑,又能落地实施。本文将从现状分析、应用规划、平台实施以及应用效果四个方面对项目进行具体说明。


一、东莞农商银行现状分析

项目组通过对各业务部门进行访谈及问卷调研,了解东莞农商银行各业务部门在大数据应用方面的现状和期望,同时也从大数据角度分析了行内的数据源情况。

各业务部门在大数据应用方面的现状和期望主要包括:各部门目前的数据应用现状;未来3~5年内希望实现的对业务具有支撑作用的重要大数据应用场景;大数据应用的关注度和迫切性;目前各部门在大数据获取和支持方面的情况;各部门对历史数据查询的期望。

数据源情况主要包括:目前行内已经积累的行内行外的多种源数据,含结构化和非结构化数据,其中对结构化数据的分析应用已经基本支持行内日常业务分析、监管报送和高层管理的要求;对非结构化数据,如文本、语音等,引入大数据相关技术进行语义分析,并与结构化数据相结合加强数据价值的挖掘,可进一步支撑大数据应用和业务发展。行内已有的大数据数据源主要来自以下几个方面。

(1)行内结构化数据,包括源业务系统数据和数据仓库数据。

(2)行内非结构化数据,如图像(贷款办理、柜面业务、财务系统等产生的扫描件)、语音(柜面业务、呼叫中心等产生)、视频(柜面业务,监控)等。

(3)行外结构化数据,包括企业网络舆情信息、人行征信信息、工商注册信息、诉讼信息、向第三方购买的数据等。

(4)行外非结构化数据,包括网络爬虫数据、向第三方购买的非结构化数据等。

二、应用规划及实施路线

(一)应用规划

结合现状分析以及与行内业务管理人员的交流,项目组收集并总结了基于大数据平台的应用提升要求,并形成了大数据应用规划,主要包括客户洞察、营销支撑、运营提升和风险管控四个领域,各领域的具体应用如图 4—8 所示。

 

图 4—8 大数据应用规划图

(二)实施路线

项目组认为在东莞农商银行大数据应用实施上,不但需要参考业务部门对大数据应用需求的迫切度和关注度,另一方面也需要考虑行内数据和技术的支撑情况,将大数据平台基础建设,客户洞察、营销支撑、运营提升和风险管控四大领 域的应用建设按照时间顺序排列,制成大数据应用规划实施路线图(见图 4—9)。

近期,大数据平台的工作主要是应用场景驱动的大数据开发,首先是平台软硬件的安装部署,以及历史数据查询和存储的落地实施;然后实施客户画像、客户流失分析、精准营销、交易反欺诈等业务应用,其中根据行内项目计划,交易反欺诈应用集市也作为本次大数据平台建设项目的内容。

图 4—9 大数据应用实施路线图


在中远期,随着业务的发展、银行对数据的认识有所提高并且重视程度不断加大,业务部门对数据分析的要求以及认知程度也越来越深,大数据平台建设日趋完善成熟,该阶段,在客户洞察方面,完成客户资产识别、新客户识别、客户实时行为分析;在营销支撑方面,对实时营销、交叉营销、事件式营销、社交网络营销做相应的活动;在运营提升方面,加强舆情分析以及产品和服务优化、客服中心优化、网点(ATM)布局优化;在风险管理方面,开始着手完成客户经理“私售”行为识别、贷后风险异动识别、优化催收管理、担保圈管理等分析应用。

三、平台实施

东莞农商银行大数据平台实施内容主要包括大数据基础平台、历史数据查询平台和反欺诈应用集市三个部分。

(一)大数据基础平台

大数据基础平台的建设目的在于整合各业务系统的数据,准确完整地分析行内现有数据的特点、流向以及使用标准,建立层次合理的数据模型,规范数据架构,完善数据存储和管理机制,满足东莞农商银行业务持续发展的要求,为大数据应用提供数据基础和技术基础。

1.平台基础软件

目前市场上有较多的大数据解决方案提供商,东莞农商银行综合考察了多家产品的性能、稳定性、易用性和可维护性等要素,最终选定了星环科技公司的Transwarp大数据综合平台(Transwarp Data Hub,TDH)作为大数据基础平台的支撑软件。TDH平台的主要组件如图4—10所示。

图 4—10 星环 TDH 平台组件图

 

本项目主要使用 HDFS Hadoop 分布式文件系统、Inceptor 分布式内存分析引擎、Hyperbase 实时分布式数据库和 Stream 流处理引擎四个组件。

2.系统架构

大数据平台在系统架构上分为四层:数据采集层、数据层、数据接口层和数据应用层,系统架构图如图 4—11 所示。

图 4—11 大数据平台系统架构图

 

图中红色虚线框内是大数据基础平台,与数据仓库平台进行数据交换,是数据仓库体系在大数据环境下的一个重要补充和衍生。大数据平台使用 Hadoop 处理非结构化和半结构化数据,处理完的数据再导入到数据仓库或各应用系统中以便做进一步的数据展示与分析。以下对大数据平台架构做进一步说明。

(1)数据采集层。从银行内部信息系统、外部互联网、第三方的数据等数据源采集数据,数据采集方式包括数据探头、数据抓取、日志采集、数据桥接等。

(2)数据层。对采集的结构化数据和半结构化、非结构化数据进行集中管理,进行数据清洗、标准化、存储、索引、数据挖掘、数据分析等操作,实现对大数据的集中管理。数据层将根据处理大数据的类别,分为实时数据区、批量数据区 和数据查询功能。在数据层,采用Hadoop、Stream、Hbase、Hive等大数据处理平台和工具,实现批量数据区、实时数据区和数据查询的处理。

(3)数据接口层。提供支持Web环境、数据建模工具、数据可视化工具、数据获取API等外部系统获取和使用大数据平台的数据的技术接口,支持大数据的广泛应用。

(4)数据应用层。该层将根据数据应用的场景,并依托数据应用的工具,实现大数据应用,本项目已实现历史数据查询和交易反欺诈应用。未来应用场景将基于东莞农商银行的业务范围和特点,实现客户画像、精准营销、风险管控、运营优化等主题的细分场景应用。

3.物理架构

大数据基础平台的物理架构如图 4—12 所示。

图 4—12 大数据基础平台物理架构图

其中,黑色的8个节点是本期项目已建设的结构化大数据集群的物理设备,可用容量约128T(总容量384T),可满足数据仓库历史数据未来5年的存储需要;灰色部分是未来扩容及新建集群的物理设备。

(二)历史数据查询平台

历史数据查询平台主要使用对象是数据研究分析查询应用及各渠道终端,能实现灵活查询和批量导出。目前它可为业务人员提供《传票流水历史》《核心非财务交易流水历史》《表外账交易明细历史》等16张重要流水或明细表的历史数据,其结合星环TDH平台的HyperBase特性,能实现大时间周期、海量历史数据的秒级查询响应。

历史数据查询平台目前存储的数据主要来源于行内各业务系统或监管系统,分数据缓冲层(ODM)、历史数据层(HDM)、公共数据层(CDM)、决策支持集市(DSM)。ODM 层负责数据的接入处理;HDM 层负责存储技术层面历史数据;CDM 层负责存储业务层面历史数据,包括数据仓库的基础层、共性层和集市层的数据;DSM 层负责银行内部决策信息支持,包括历史数据查询集市。相关数据区域和数据流向如图 4—13 所示。

图 4—13 历史数据查询平台数据流图

具体数据处理流程如下。

(1)数据仓库处理数据后,以批量方式向大数据基础平台提供当天的接口数据。

(2)历史数据基础平台完成当天数据加载及处理后,以批量方式提交给历史数据查询集市。

(3)数据进入历史数据查询集市后,按照设定的数据处理顺序,完成数据的整合、汇总处理,然后供历史数据查询应用进行即时的数据检索。

(三)反欺诈应用集市

反欺诈应用集市主要是根据 T+1 批量分析的标签数据,实时地对交易数据进行甄别,实现对实时交易数据的欺诈识别及控制等功能。该集市的技术实现结合了HDFS、Redis和Storm的技术特点,即以Hadoop分布式文件系统作为基础存储,以Redis内存数据库作为缓存,以Storm对交易数据流实现高速匹配。

其数据内容主要以结构化数据为主,系统每天预加载批量分析的标签数据,并且实时收集来自于网银系统、信用卡系统等交易相关系统的实时交易数据。数据模型采用实时统计的维度数据模型或逆范式宽表,实时分析及匹配欺诈引擎规则,达到对交易数据的实时甄别及控制。在数据生命周期方面,实时数据区域只保留当日数据,历史数据会在新数据开始接收前归档清理。相关数据区域和数据流向如图 4—14 所示。

图 4—14 交易反欺诈应用集市数据流图

具体数据处理流程如下。

(1)数据仓库完成数据处理后,以批量方式向反欺诈应用集市提供当天的接口数据,如客户标签数据。

(2)网银、信用卡等业务系统发生交易时,交易数据传递给实时数据处理区。

(3)实时数据处理区接收到实时交易数据后,在内存中实时匹配欺诈相关的规则,实现以内存数据处理技术和流式数据处理框架,完成实时数据统计及甄别。

(4)实时数据处理平台完成数据处理后,立刻将结果反馈给业务系统。

四、应用效果

第一,大数据平台的建立有效解决了东莞农商银行历史数据的保存问题。长期以来,为了保证数据仓库的批处理时间和查询响应速度,5年以上的历史数据只能从数据库清理到磁带上,一旦需要查询这部分数据,只能从磁带中恢复,耗费大量的人力物力。考虑到一体机设备的价格较高,存储性价比较低,新一代数据仓库的建成也无法解决此问题。而大数据平台的节点是相对廉价的PC服务器,节点数量理论上能无限扩展,因此能以较低的存储成本把历史数据存储周期延长,实现历史数据保存15年以上的存储规划,有效解决历史数据的保存问题。

第二,大数据平台的建立提高了东莞农商银行的风险防范能力。大数据平台上的反欺诈应用集市构建了诈骗识别模型,实时地对交易数据进行甄别,实现对实时交易数据的欺诈识别及控制,有效防止欺诈交易的发生。目前系统能支持500万以上的客户量,用户环境的页面响应快速,每个交易监控的最大响应时间小于2秒,平均响应时间小于1秒,满足日峰值200万笔的业务处理要求,支持TPS大于1500笔/秒,满足稳定、可扩展以及未来业务高速增长的要求。

第三,大数据平台的建立有助于东莞农商银行实现数据资产化,提升盈利能力。大数据时代的来临,“数据资产化”的概念受到各行业的高度重视,但数据资源转化为数据资产的一个必要条件是数据能为企业带来经济价值。东莞农商银行的内部数据几乎囊括了其客户的最核心价值,但以往仅仅作为会计账务及其附加流水而保存,只有依赖大数据的数据挖掘技术,才能获取这些数据背后的规律,进而提升盈利能力,创造经济价值,真正实现数据资产化。


作者:东莞农村商业银行 信息科技部大数据平台项目组

本文由新知号原创发布,转载请注明来源。
联系方式:system@shangyexinzhi.com
2000+知识点 7000+案例
商业新知助力数字化转型
下载