银行业大数据应用及 HiveQLjoin 分析
银行大数据应用
银行业现有的一些数据分析,挖掘领域:
反欺诈:
如果账户平时都是小额交易,首次进行大额转账,这时可能会有相关人工电话核实。当时还有可能在你账户余额明显增大时。通过反欺诈模型研究和反欺诈行为分析,来支持相关业务处理。
发现客户的消费方式,消费习惯:
通过客户数据分析客户行为信息和偏好,专家通过机器学习等方式分析客户数据,改善现有业务。
风险评估
通过对个人和企业相关数据分析,评估风险承受能力
个性化营销
提供个性化服务,从而留住客户
客户价值预测(CLV )
该信息可用于判断适当的客户获取成本以及对现有客户的保留支出。
实时预测分析
08 年美国富国银行,通过数据发现资产管理公司退回的次贷产品越来越多,从而停止次贷业务,从而在次贷危机中全身而退。
客户细分
客户细分意味着根据他们的行为(对于行为分割)或特定特征(例如区域,年龄,对于人口统计学分割的收入)挑选出一组客户。
推荐引擎
银行理财产品个性化推荐给客户。 例如在微信银行中给每个客户推荐此客户喜欢的产品,帮客户找到其最适合的产品,增加产品的购买率。
客户支持
可以通过客户行为在 App 上通过我的客户等功能,提供转账,理财能常见问题解答,处理过程更自动化,更准确,更个性化,更直接,更高效,并且减少了与人工客服时间相关的成本。
不少银行已经建设了自己的客户关系管理系统(CRM), 用于客户数据的获取,分析客户行为和偏好特性,发展管理客户关系。原有的数据仓库,数据集市一般都依赖专有设备和专用软件,数据库的支持,大数据的技术的出现,减少了运营成本,可以使用更加廉价的成本完成。
HiveQL 的 join 分析
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
page_view 表和 user 表结构与数据示例如下
HiveSQL,通过 Map 函数转化为<K,V>形式:
其中 key 为 userid, value 值为 <tableid, pageid or age>
map 过程:
输入:各个节点的 page_view 和 user 记录
输出: key,value 形式,由于 value 来源两张表, 所以 value 中标记了表信息
shuffle sort 过程:
输入: key,value 形式,key {userid} value {table, pageid}, {table, age}
输出: 按照 key:userid 进行分组统计
reduce 过程:
输入: 按照 key:userid 进行分组
输出: 分组内相同 key 的 value 进行关联。
参考及引用
架构师训练营作业-李智慧老师相关讲义
https://activewizards.com/blog/top-9-data-science-use-cases-in-banking/
Photo by Stephan Müller from Pexels
评论