写点什么

数据应用二

用户头像
raox
关注
发布于: 2021 年 02 月 21 日
数据应用二

你所在的行业,常用的数据分析指标有哪些?请简述。

  • 留存/留存率:订阅周期结束以后,续约客户比例,地域分布

  • 使用时长:云服务订阅用户使用时长,时间段分布

  • Page View:网页访问统计

Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

PageRank 算法给每个网页附加权值的。它借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。全职越大,显示的位置越靠前。核心思想为:

(1)如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是 PageRank 值会相对较高

(2)如果一个 PageRank 值很高的网页链接到一个其他的网页,那么被链接到的网页的 PageRank 值会相应地因此而提高。


除了页内超链接,为了避免模拟客户在某一个页面,通过浏览地址栏输入跳转到其他地址;或者某页面设置指向自己的超链接,欺骗搜索引擎。引入了随机数。


基本算法为:

假设某一时刻点共有 N 个互联网页面。

为了提高存储和处理的效率,用 3 元组表示页面跳转,若某个页面 Pi 可以通过超链接跳转到 其他的页面 Pj, Pk, Pm.....等,则包含[Pi, Pj,1], [Pi, Pk,1], [Pi, Pm,1]

Page 权值计算:

其中 MpiMpi 是所有对 pipi 网页有出链的网页集合,L(pj)L(pj)是网页 pjpj 的出链数目,NN 是网页总数,αα一般取 0.85。

迭代计算每个网页的 PR 值,在不断迭代趋于平稳( Markov 过程的收敛性)的时候,即为最终结果。


从工程角度来看,通过 MapReduce 实现高效的分布式计算框架。所谓 MapReduce,就是两种操作:Mapping 和 Reducing:

  • 映射(Mapping):对集合里的每个目标应用同一个操作。

  • 化简(Reducing ):遍历 Mapping 返回的集合中的元素来返回一个综合的结果。


用户头像

raox

关注

还未添加个人签名 2019.02.11 加入

还未添加个人简介

评论

发布
暂无评论
数据应用二