架构师训练营 1 期 -- 第十三周作业
作业一:
(至少完成一个)
你所在的行业,常用的数据分析指标有哪些?请简述。
答:我目前所在的行业是电梯物联网,数据分析指标其实有很多,根据不同的需求会有不同的分析指标。从终端设备连接的角度来分析,有每月入网数统计,每月运营商SIM卡统计,每月SIM卡流量统计,流量消耗分布统计,设备在线率等。从设备维修保养角度,分析指标有故障率,误报率,故障类型统计,故障及时处理情况统计等等。
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank算法是一个对所有搜索引擎中页面进行排序的算法。在所有的页面中,每个页面都包含经过它可以访问的页面链接,这个链接的数量叫做链出。每个页面也可以通过其它页面达到,这个数量叫做链入。PageRank采用投票的方式计算页面的排名,每有一个页面指向它,则表示指向它的页面为它投一票。页面的排名是所有指向它页面的投票数量的总和。所以投票公式为:
P(A)=P(B) + P(C) + ... P(N)
但是这里边考虑了一些其它因素,比如一个页面如果有多个链出页面,那么这个页面的投票权重就降低了,投票公式变为:
P(A)=P(B)/L(B) + P(C)/L(C) + ... P(N)/L(N)。
其中L(N)是第N个页面的链出数。
还有一个需要考虑的因素是,当一个页面的链出页只包含它自己时,这个页面的权重就会增加的比较快,但实际上这个页面可能没有太多的页面指向它,这个结果时不合理的,为了是计算结果归一话,PageRank算法模拟了用户随机访问页面的特点,最终得到PageRank的计算公式为:
pi是第i个页面的排名,d是随机跳出当前页面的概率,N是总页面数,M(pj)是链入pi页面的合集,L(pj)是pj链出页面的数量。
这个算法第一次给所有页面的投票赋初始值,然后不断进行重复计算,知道所有页面的投票数都区域稳定,得到的排名就是所有页面的排名。
评论