写点什么

常用数据分析指标,PageRank 算法

用户头像
garlic
关注
发布于: 2020 年 12 月 20 日
常用数据分析指标,PageRank算法

数据分析指标


以银行客户关系管理系统(CRM)为例, 通过客户信息手机整理对现有客户和潜在客户进行细分,和消费行为分析, 获取客户的

  • 客户满意度指标

  1. 产品或服务和客户需求间的匹配程度

  2. 产品或服务本身质量 

  3. 产品或服务的价格

  • 客户种程度指标

  1. 客户开展业务关系时间长短

  2. 客户在他行开户情况

  3. 客户使用银行服务的总数和频率

  4. 对本行事故和差错的容忍度

  5. 客户价格敏感度

  6. 为本行介绍客户数

  7. 某一细化客户群对营销活动的响应率

  8. 某一细化客户群的流失率


通过这些指标对客户进行营销和维护。


另外还有些如贷款质量:正常,逾期, 呆滞,呆账等。


PageRank 算法


PageRank 是 Google 早期对其搜索结果网页进行排名的一种算法, 核心思想就是通过链接来进行投票, 如果有一个页面被其他页面引用就说明这个页面更有价值。


给定页面 PR 值将其均分到页面的所有链接上:



假设有四个网页, 其中 B,C,D 都引用 A, D 引用 B, B, D 引用 C


A 的 PageRank 值: (分母为各节点的票数)

如果是将根据每个页面连出总数: L(X), 公式可以表示为:


抽象为数学公式:


PageRank 理论认为,假想浏览者随机点击链接最终将停止点击。 在任何步骤,该人将继续的概率为阻尼系数 d。 各种研究已经测试了不同的阻尼因子,但是通常假设阻尼因子将被设置在 0.85 左右。



MapReduce 过程


Map 输入每个节点存放的链出的关系以及该节点的初始化 PR 值(节点分之一)

Map 输出, key 为节点编号, value 为该节点上所有链出节点的 PR 值。

shuffle sort :可以将不同的节点进行排序分类到统一运算节点上。

reduce: 累加汇总各个节点值


参考及引用



架构师训练营作业-李智慧老师相关讲义

Photo by eberhard grossgasteiger from Pexels


用户头像

garlic

关注

还未添加个人签名 2017.11.15 加入

还未添加个人简介

评论

发布
暂无评论
常用数据分析指标,PageRank算法