数据应用二
你所在的行业,常用的数据分析指标有哪些?请简述。
留存/留存率:订阅周期结束以后,续约客户比例,地域分布
使用时长:云服务订阅用户使用时长,时间段分布
Page View:网页访问统计
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank 算法给每个网页附加权值的。它借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。全职越大,显示的位置越靠前。核心思想为:
(1)如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是 PageRank 值会相对较高
(2)如果一个 PageRank 值很高的网页链接到一个其他的网页,那么被链接到的网页的 PageRank 值会相应地因此而提高。
除了页内超链接,为了避免模拟客户在某一个页面,通过浏览地址栏输入跳转到其他地址;或者某页面设置指向自己的超链接,欺骗搜索引擎。引入了随机数。
基本算法为:
假设某一时刻点共有 N 个互联网页面。
为了提高存储和处理的效率,用 3 元组表示页面跳转,若某个页面 Pi 可以通过超链接跳转到 其他的页面 Pj, Pk, Pm.....等,则包含[Pi, Pj,1], [Pi, Pk,1], [Pi, Pm,1]
Page 权值计算:
其中 MpiMpi 是所有对 pipi 网页有出链的网页集合,L(pj)L(pj)是网页 pjpj 的出链数目,NN 是网页总数,αα一般取 0.85。
迭代计算每个网页的 PR 值,在不断迭代趋于平稳( Markov 过程的收敛性)的时候,即为最终结果。
从工程角度来看,通过 MapReduce 实现高效的分布式计算框架。所谓 MapReduce,就是两种操作:Mapping 和 Reducing:
映射(Mapping):对集合里的每个目标应用同一个操作。
化简(Reducing ):遍历 Mapping 返回的集合中的元素来返回一个综合的结果。
评论