13.10 作业
你所在的行业,常用的数据分析指标有哪些?请简述。
放疗行业数据分析指标:
设备复合增长率:不同时期放疗设备的复合增长率。
单位复合增长率:不同时期我国放疗单位的复合增长率。
单位设备比率:放疗单位平均拥有的放疗设备的比率。
放疗技术占比:放疗治疗技术 3D-CRT,IMRT 等技术,在不同时期的占比。
每百万人口放疗设备数量复合增长率。
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
解析:PageRank:网页排名算法。
核心要素:链接投票,确定网页等级。
投票概述:PageRank 通过链接关系,确定网页等级。
A 页面链接到 B 页面,可解释为 A 页面给 B 页面的投票。
网页等级决定于投票来源和投票目标。高等级页面可以提升低等级页面。
页面【得票数】决定于来源页面的重要性,即链接向该页面的页面的重要性。
A 页面链接向 B 页面,即 A 页面给 B 页面投一票。
如果 B 页面有较多链入,即 B 得票数较多,则 B 页面等级较高;
如果 B 页面没有链入,即 B 得票数为 0,则 B 页面等级较低。
如图所示:A 有三个链入,C 有 2 个链入,B 有 1 个链入, D 没有链入。
等级排序:A>C>B>D
PageRank 算法推理:
假设 1:4 个页面 ABCD,链入关系如上图所示。
A 的 PageRank 值=B 的 PageRank 值+C 的 PageRank 值+D 的 PageRank 值。
即:PR(A)=PR(B)+PR(C)+PR(D).
假设 2:一个页面只能投票一次,不能重复投票。
如上图所示,B 投票给 A,也投票给 C,所以 A 获得票数为 1/2 票,C 获得 1/2 票。
同理:D 投票给 ABC,A 获得票数 1/3 票,B 获得 1/3 票,C 获得 1/3 票。
A 获得的总票数=(B 的票数*1/2)+(C 的票数*1/1)+(D 的票数*1/3).
即:
推理:页面投出的票,平均分配。可得公式:
假设 3:一个页面链接向自己。如图所示:C 链接向自己。
根据公式计算 C 的票数,迭代计算后,C 的票数持续递增,而实际上 C 投给自己一票,仅获得自己投给自己的一票。显然公式计算不合理,导致最终的页面排名不合理。
为了解决这个问题,引入随机页面跳转概率,且概率一样(0.85)。即:页面跳转到其他页面的概率是一样的。
a=0.85.
抽象出 PageRank 计算公式:
p1,p2,.....pN 是被研究的页面,M(pj)是链入 pi 页面的集合,L(Pj)是 Pj 链出页面的数量,而 N 是所有页面的数量。
PageRank 值是一个特殊矩阵中的特征向量,这个特征向量为:
d=0.85
评论