架构师训练营第十三周
一、你所在的行业,常用的数据分析指标有哪些?请简述。
我所在的行业是自然资源领域的电子政务。常用数据分析指标有:
在行政效能方面:
行政效能监测指标:主要对行政办公中的运行的各类事项进行情况进行统计、分析,如是否按时出窗、是否存在长期挂起等;
在行业领域方面:
调查监测指标:主要对自然资源调查监测的本底数据内容进行统计分析,对自然资源现状情况进指标监控;
确权登记指标:主要对审批后的不动产和自然资源确权登记的成果情况统计分析,对审批后的结果及对现状的影响进行统计分析。
二、Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank,即网页排名,是 Google 用来标识网页的等级或重要性的一种算法。就是一个用户在互联网上浏览到每个网页的概率。
PageRank 的核心思想概括如下:
1.如果一个网页被很多其它网页链接到,说明这个网页很重要,它的 PageRank 值也会相应较高;
2.如果一个 PageRank 值很高的网页链接到另外某个网页,那么那个网页的 PageRank 值也会相应地提高。
pagerank 模型如下
pg(A) = pg(C)/1 + pg(B) /2
A 网页的 pagerank 值由网页 B 和网页 C 的 pagerank 贡献而来,因为 B 网页有两个外链,假设等概率贡献,则贡献给 A 的值为自身的一半。
再看一个例子
此处 C 因为没有外链,所以我们假设他给其他所有网页都贡献了 pg,于是:
pg(A) = pg(C)/4 + pg(B) /2
在考虑一个情况,即用户在浏览网页的过程中,直接输入新网址进行浏览,即一个网页都有可能跳转到任意其他网页,于是针对下图:
pg(A) = (a * pg(B) /2) + (1-a) / 4) 上面公式的含义是:
在任意时刻,用户到达某页面后并继续向后浏览的概率为 a,则用户停止浏览的概率为(1-a),此时用户停止浏览后,可能会直接通过输入浏览器地址进行浏览网页,此时跳转到任意网址的概率都一样,于是上面的 a * pg(B) /2 表示从 b 跳转过来的概率,(1-a) / 4 表示直接输入网址跳转过来的概率。
评论