常用数据分析指标,PageRank 算法
数据分析指标
以银行客户关系管理系统(CRM)为例, 通过客户信息手机整理对现有客户和潜在客户进行细分,和消费行为分析, 获取客户的
客户满意度指标
产品或服务和客户需求间的匹配程度
产品或服务本身质量
产品或服务的价格
客户种程度指标
客户开展业务关系时间长短
客户在他行开户情况
客户使用银行服务的总数和频率
对本行事故和差错的容忍度
客户价格敏感度
为本行介绍客户数
某一细化客户群对营销活动的响应率
某一细化客户群的流失率
通过这些指标对客户进行营销和维护。
另外还有些如贷款质量:正常,逾期, 呆滞,呆账等。
PageRank 算法
PageRank 是 Google 早期对其搜索结果网页进行排名的一种算法, 核心思想就是通过链接来进行投票, 如果有一个页面被其他页面引用就说明这个页面更有价值。
给定页面 PR 值将其均分到页面的所有链接上:
假设有四个网页, 其中 B,C,D 都引用 A, D 引用 B, B, D 引用 C
A 的 PageRank 值: (分母为各节点的票数)
如果是将根据每个页面连出总数: L(X), 公式可以表示为:
抽象为数学公式:
PageRank 理论认为,假想浏览者随机点击链接最终将停止点击。 在任何步骤,该人将继续的概率为阻尼系数 d。 各种研究已经测试了不同的阻尼因子,但是通常假设阻尼因子将被设置在 0.85 左右。
MapReduce 过程
Map 输入每个节点存放的链出的关系以及该节点的初始化 PR 值(节点分之一)
Map 输出, key 为节点编号, value 为该节点上所有链出节点的 PR 值。
shuffle sort :可以将不同的节点进行排序分类到统一运算节点上。
reduce: 累加汇总各个节点值
参考及引用
架构师训练营作业-李智慧老师相关讲义
Photo by eberhard grossgasteiger from Pexels
评论