架构师 0 期 Week13 作业
作业 1:你所在的行业,常用的数据分析指标有哪些?
我所在行业是环境项目建设施工,常用数据分析指标有:成本指标,收支比,进度计划差值等。
作业 2:Google 搜索引擎是如何对搜索结果进行排序的?
Google 搜索算法及 PageRank 算法目的是从海量内容中根据检索词找出优质网页呈现给用户,该算法受论文影响因子启发,即一篇文章被引用次数越多,影响力越大。简易 PageRank 算法评估一个页面影响力时以它所有入链页面的影响力乘以权重(该入链页面出链数量的倒数)求和而得。比如一个由 4 个网页构成的图,我们可以以每个页面对其他页面的权重生成一个 4X4 矩阵 M,设四个页面的初始影响力一样,即影响力矩阵 w0={1/4,1/4,1/4,1/4},设 w1=MXw0,w2=MXw1,如此往复迭代 n 次,直至 w 中各网页影响力不再变化,收敛于固定值为止,即得到每个网页最终的影响力。
简易算法遇到只有出链没有入链,或者只有入链没有出链的网页时会出现问题,导致影响力算出 0 值,或遇到只有自己出链,或几个网页形成引用循环,导致影响力矩阵不收敛的状况发生。这样需要引入一个阻尼系数 d,即假设有部分随机输入网页浏览而非通过网页跳转访问的用户。这样每个页面的影响力等于建议算法中影响力乘(1-d)再加上 d/入链网页数量。
评论