大数据在金融行业的应用——银行大数据

IRENE · 发表于 2015-11-16 11:54:49

精准大数据之银行客户案例

智树科技于上上周五与精准数源大数据部门就银行大数据为主题，开展了网络研讨会。探讨以银行客户为切入点，大数据在金融行业的应用。大致内容整理：

一、 业务驱动

银行应用大数据，主要是由其业务驱动。应用大数据的业务驱动主要由精准营销、风险控制、改善经营和服务创新四个方面组成。

1、精准营销：互联网时代的银行在互联网金融的冲击下，迫切的需要掌握更多用户信息，继而构建用户360度立体画像，即可对细分的客户进行精准营销、实时营销等个性化智慧营销。

2、风险控制：应用大数据技术，可以统一管理银行内部多源异构数据与外部征信数据，可以更好的完善风控体系。内部可保障数据的完整性与安全性，外部可控制用户风险。

3、改善经营：通过大数据分析方法改善经营决策，为管理层提供可靠的数据支撑，使经营决策更加高效、敏捷，精确性更高。

4、服务创新：通过对大数据的应用，改善与客户之间的交互、增加用户粘性，为个人与政府提供增值服务，不断增强银行业务核心竞争力。

除以上四点之外，银行等金融机构应用大数据也有政府政策的原因。在十二五规划中，大数据已不再是只是专有名词，大数据已然上升为国家战略。随着国家对数据的重视、对国产化的支持以及对开源架构的呼声越来越高，使得银行等金融机构对大数据技术的选择成了必然趋势。

二、 数据类型

银行多源异构的数据类型是首先需要被考虑的。只有将多源异构的数据处理好，为应用建设打好基础，银行建设的大数据项目才有意义。银行的数据类型可分为结构化数据、半结构化数据与非结构化数据三大类型。

1、结构化数据：结构化的数据来源自银行运营数据仓储(ODS)和数据仓库(EDW)。EDW为企业提供分析决策服务，ODS主要实现企业数据整合、共享和准实时运营监控等功能。而通过Hadoop等组件的应用可以将数月前甚至几年前的历史数据进行迁移保存。在分布式存储结构下，结构化数据的存储计算可以得到巨大的改善，可对海量离线数据进行离线分析，将离线数据优势最大化，为银行用户打造立体用户画像提供最全面的数据支撑。

2、半结构化数据：半结构化数据的整合在数据整合中是最为复杂的。银行可对接来源于银联数据和其他的金融机构所提供的不同类型数据库或Excel等的数据。 “打通”多源异构的数据是项目中遇到的最困难的部分，数据整合完毕可快速进行建模分析。

3、非结构化数据：银行对于非结构化的处理的方法还是比较原始的。非结构化数据涵盖的范围比较广泛，有新闻，视频，图片以及社交网络等数据，此类数据的数据量相当巨大，但以后对银行的增值会难以估量。

三、 数据流向架构图

1、大数据基础平台：国外厂商的产品CDH、HDP等，国内厂商的产品TDH、ADH等，以上产品均可为企业用户提供大数据基础的存储与计算服务。

2、数据处理加工平台：主要对大数据基础平台提供数据，进行建模分析。一可迁移银行已有的主题模型，比如销售主题、财务主题、风控主题等一系列主题迁移至大数据平台上。二可对接服务机构创新性模型，比如半结构化数据、非结构化数据等的模型进行迁移。

3、数据服务共享平台：目前银行应用的较少。总行应用共享平台，可为支行与分行提供服务，比如支行与分行的客户经理在上班之前可用手机接收总行的推送信息，推送信息包括预测客户经理的顾客贷款、购买理财产品等的概率，提升服务质量，提高服务精度，增加成单量。

目前接触的银行中，做到第二层级数据处理加工的比较多。银行会做好用户画像，做一些简单的客户分析。至于第三层级数据服务共享平台，做的银行较少，而且总行应用共享平台，怎样提供服务给支行，支行怎样提供给分行，还需要理好思路进行探讨。总体来讲，数据流向的大致思路是通过数据源的接入获取更加全面的数据，通过构建或迁移相关模型，为共享平台提供服务。流程如下: 数据源接入——模型构建——服务共享

IRENE · 发表于 2015-11-16 12:22:59

精准大数据之银行客户案例
智树科技于上上周五与精准数源大数据部门就银行大数据为主题，开展了网络研讨会。探讨以银行客户为切入点，大数据在金融行业的应用。大致内容整理：
一、业务驱动
银行应用大数据，主要是由其业务驱动。应用大数据的业务驱动主要由精准营销、风险控制、改善经营和服务创新四个方面组成。
1、精准营销：互联网时代的银行在互联网金融的冲击下，迫切的需要掌握更多用户信息，继而构建用户360度立体画像，即可对细分的客户进行精准营销、实时营销等个性化智慧营销。
2、风险控制：应用大数据技术，可以统一管理银行内部多源异构数据与外部征信数据，可以更好的完善风控体系。内部可保障数据的完整性与安全性，外部可控制用户风险。
3、改善经营：通过大数据分析方法改善经营决策，为管理层提供可靠的数据支撑，使经营决策更加高效、敏捷，精确性更高。
4、服务创新：通过对大数据的应用，改善与客户之间的交互、增加用户粘性，为个人与政府提供增值服务，不断增强银行业务核心竞争力。
除以上四点之外，银行等金融机构应用大数据也有政府政策的原因。在十二五规划中，大数据已不再是只是专有名词，大数据已然上升为国家战略。随着国家对数据的重视、对国产化的支持以及对开源架构的呼声越来越高，使得银行等金融机构对大数据技术的选择成了必然趋势。
二、数据类型
银行多源异构的数据类型是首先需要被考虑的。只有将多源异构的数据处理好，为应用建设打好基础，银行建设的大数据项目才有意义。银行的数据类型可分为结构化数据、半结构化数据与非结构化数据三大类型。
1、结构化数据：结构化的数据来源自银行运营数据仓储(ODS)和数据仓库(EDW)。EDW为企业提供分析决策服务，ODS主要实现企业数据整合、共享和准实时运营监控等功能。而通过Hadoop等组件的应用可以将数月前甚至几年前的历史数据进行迁移保存。在分布式存储结构下，结构化数据的存储计算可以得到巨大的改善，可对海量离线数据进行离线分析，将离线数据优势最大化，为银行用户打造立体用户画像提供最全面的数据支撑。
2、半结构化数据：半结构化数据的整合在数据整合中是最为复杂的。银行可对接来源于银联数据和其他的金融机构所提供的不同类型数据库或Excel等的数据。 “打通”多源异构的数据是项目中遇到的最困难的部分，数据整合完毕可快速进行建模分析。
3、非结构化数据：银行对于非结构化的处理的方法还是比较原始的。非结构化数据涵盖的范围比较广泛，有新闻，视频，图片以及社交网络等数据，此类数据的数据量相当巨大，但以后对银行的增值会难以估量。
三、数据流向架构图
1、大数据基础平台：国外厂商的产品CDH、HDP等，国内厂商的产品TDH、ADH等，以上产品均可为企业用户提供大数据基础的存储与计算服务。
2、数据处理加工平台：主要对大数据基础平台提供数据，进行建模分析。一可迁移银行已有的主题模型，比如销售主题、财务主题、风控主题等一系列主题迁移至大数据平台上。二可对接服务机构创新性模型，比如半结构化数据、非结构化数据等的模型进行迁移。
3、数据服务共享平台：目前银行应用的较少。总行应用共享平台，可为支行与分行提供服务，比如支行与分行的客户经理在上班之前可用手机接收总行的推送信息，推送信息包括预测客户经理的顾客贷款、购买理财产品等的概率，提升服务质量，提高服务精度，增加成单量。

目前接触的银行中，做到第二层级数据处理加工的比较多。银行会做好用户画像，做一些简单的客户分析。至于第三层级数据服务共享平台，做的银行较少，而且总行应用共享平台，怎样提供服务给支行，支行怎样提供给分行，还需要理好思路进行探讨。总体来讲，数据流向的大致思路是通过数据源的接入获取更加全面的数据，通过构建或迁移相关模型，为共享平台提供服务。流程如下: 数据源接入——模型构建——服务共享
四、大数据应用
大数据应用中，可依照非实时到实时为时间轴，分为离线分析、实时分析、流处理与数据服务接口服务。
1、离线分析：银行系统中，总行在离线分析应用的较好。离线分析在银行中的应用比较落后陈旧，且多数利用海量历史数据进行离线分析，分析现有客户，刻画用户画像，对客户细分。并且大部分分行还在跑批的阶段。银行如果过度依赖离线分析，会错过客户购买时机，在抢占市场时失去先机。
2、实时分析：相对于离线服务，实时服务的总体投入量更多。实时分析阶段主要提升计算能力，分析结果提升至分钟级，及时提供服务支持，客户经理可以及时的跟踪。实时分析还可为业务人员提供自定义查询，业务人员可以随机选择时间段等条件拉出客户资料，分析客户行为，5分钟之内出结果并展现图表。实时分析还为大量活期表统计提供服务。
3、流处理：在流处理阶段，银行与客户的交流会更直接。比如当客户消费时，消费记录便会记录在银行的消息队列，通过大数据平台run出用户符合某项活动的活动规则，1s内反馈结果，活动与人会自定义匹配，在用户操作刷卡动作时，实时减免相关用户等级的费用，而且此活动会比提供优惠券更能吸引客户。并且通过流处理，银行会在一天之内得到推广活动的活动结果，根据对结果的评估对活动进行调整。在整个活动的过程中，流处理大大减少了银行等待时间，及时调整活动策略，无需等待；并在活动结束后将数据反补到离线处理，为用户画像提高精度。
4、数据服务接口：可以增强银行模式转型竞争力。银行的体制决定银行本身具有大体量数据等资源，通过数据整合、模型分析等流程加工数据，以数据服务商的角色为政府等部门提供数据、在线服务等，还可与之交换数据。

五、具体案例
1、****
概述
****是联邦制体系的银行，总行管理分行，集中式处理数据，但分行有自主权。我们主要是为**分行提供服务。**分行存在的问题为：想对本行一年以上的历史数据进行基于海量数据的相关指标分析与回溯统计，但**的技术部门负责人表示之前没有窗口也没有计划去执行此操作。
客户面临的挑战
目前**银行的数据量在5000万到一亿条数据，大概有100个左右的字段，但**银行的小机每天都在超负荷运算业务数据，没有多余的时间窗口去运算历史数据。
解决方案
  搭建了6个节点的ADH集群，归档DB2历史数据。ADH集群归集历史数据有先天性分布式存储的优势，客户未来可以在不停机的状态下添加服务器
  添加Spark组件，提升集群运算能力
客户受益
  **银卡可对一年以上数据进行查询追溯
  为用户提供自定义指标服务，可自由分析对公对私客户

2、***行
概述
***行总部每天都会归集整合所有分行和办事处的信息，进行处理运算。现****银行总部期望联动客户交易明细数据，考核**20000名客户经理绩效。技术部门表示现有存储结构难以支撑联动性考核的实时性要求。
客户面临的挑战
  活期表数据量达10亿条，传统Oracle跑批压力大，窗口紧张。
  大数据应用场景下开发成本过高，验证周期过长。
解决方案
  搭建CDH集群，迁移两个存储过程。每个存储过程有3000~5000行代码，将代码转置到SparkSQL和DataThream上面。
  导入全部活期数据
客户受益
  提升银行跑批效率。原有Oracle数据库跑批为7小时，现利用CDH将跑批降低为2小时。
  归集大量定期与活期数据，可为其他机构提供数据服务，提升服务质量。

3、****信用卡中心
概述
****信用卡中心期望持卡用户在刷卡消费时能实时地判断出该用户是否满足满减促销活动的条件，如果满足，则实时计算出满减数值，提高用户刷卡消费体验。但在运维管理中遇到问题。
客户面临的挑战
在促销满减活动中，由于刷卡量短时间骤增，原有oracle数据库面对海量数据做实时计算时性能不足，导致刷卡失败或严重延时，用户体验差，无法满足业务需求。优化过程艰巨，难以短时间内提升持卡用户的使用感知。现有运维系统无无法检测集群平衡、及时感知组件状态及预测集群稳定性等问题。
解决方案
  基于Hadoop大数据生态，使用自有产品ADH、ADE搭建高性能、稳定的大数据支撑平台，包含数据收集存储、分析计算以及数据服务功能；
  将原系统中需要高并发实时计算的功能移植到新系统；
  加强应用系统性能监控，分析应用系统专题模块瓶颈；提高识别用户是否能参加立减活动的识别速度，实时计算刷卡促销活动额度；
  提供故障预警、运维可视化、精准运维等服务；
客户受益
  解决客户业务中遇到的瓶颈问题，客户业务系统运行顺畅；
  实时推送高关联度的促销活动，引导持卡人消费，提高客户收入；
  提高客户的同业竞争力和影响力。
分享完毕，最后唠叨：不管你是程序猿还是程序媛，无论你是对Hadoop感兴
的新手还是玩转Hadoop的大牛，只要你愿意交流，有学习精神、有分享精神
都欢迎骚扰chenl艾特diitech.cn。如果你想学Hadoop，邮件标题请写“学习”
如果你是Hadoop工程师想跳槽，邮件标题请写“求职”。我们是既做产品也
课程；既培训程序员也吸收程序员；拿的出Cloudera授权；发的了全球认证
书；斗得过其他代理；撑得起技术团队的，百度搜得到的：精准数源。欢迎
询！欢迎合作！欢迎加入！150 C 005 D 19329 H

饭团 · 发表于 2015-11-19 15:56:20

您好，我们是出版公司想邀请您写书，您有兴趣吗

IRENE · 发表于 2015-12-1 10:46:41

饭团发表于 2015-11-19 15:56
您好，我们是出版公司想邀请您写书，您有兴趣吗

写书目测写不了....

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据在金融行业的应用——银行大数据