写点什么

架构师训练营 1 期第 13 周:数据应用(二)- 作业

用户头像
piercebn
关注
发布于: 2020 年 12 月 19 日

一、你所在的行业,常用的数据分析指标有哪些?请简述。  

目前正在参与做一个应用接口访问情况统计的工具,主要涉及的数据分析指标包括,在一个时间范围内的接口的访问次数,平均耗时,错误次数,TP90 访问时间,TP99 访问时间,上行速度,下行速度等,每 30 秒采集一次数据,按照分钟,十分,小时,天做数据统计分析,根据阈值对异常的指标进行告警。

二、Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

PageRank 算法的核心思路

PageRank 算法的核心思路是,通过链接来进行投票,一个搜索词,几千万个搜索结果,这几千万的搜索结果哪些是更有价值的应该排在前面呢?主要依据是,如果一个页面被其他的更多的页面去引用了,也就是说在其他页面中有指向这个页面的超链接,那就说明这个页面会更重要一点,通过这种投票的方式进行量化,如果 A 页面包含了 B 页面的链接,也就是说通过 A 页面通过点击链接可以跳转到 B 页面,就认为 A 页面给 B 页面投了一票,那么互联网中所有的页面,它们之间都是由各种各样的超链接构建起来的一个网状的结构,我们通过去计算这样的一个投票,把它量化出来,我们就算出来每个页面的一个权重值,这个值就叫 PageRank,这样的 PageRank 值算出来以后,我们根据 PageRank 值进行排序,排在前面的就是其他的网页认为这个页面好,拥有指向这个页面链接的最多的一个页面,这个页面通常也是用户想要看到的,通过这样一种方式,我们可以将页面有序的排序起来,这样的排在前面的页面能更好的满足用户的使用体验。

PageRank 计算公式

PageRank 特征向量值的表达

大数据技术对 PageRank 计算的支持

这里面最重要的就是,面对几万亿大小的数据如何完成数据计算,行列式中虽然大部分都是 0,但是有效的数据也是几万亿乘以一个量级的,可能是几十万亿,R 值行列式的大小也是几万亿的,那也这样用一个几万亿乘几万亿的矩阵再乘以一个几万亿的向量如何进行计算就是大数据的一个挑战,所以虽然我们有了一个公式,但是如果没有大数据的技术支持,也算不出来这个结果来,这就是 Google 为什么要搞出来 MapReduce,通过这样的算法公式去高效的进行页面排名,使自己成为互联网搜索引擎的老大的原因。


发布于: 2020 年 12 月 19 日阅读数: 15
用户头像

piercebn

关注

还未添加个人签名 2019.07.24 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 1 期第 13 周:数据应用(二)- 作业