写点什么

第十三周课后练习

用户头像
晴空万里
关注
发布于: 2021 年 01 月 15 日

作业一:

(至少完成一个)

  • 你所在的行业,常用的数据分析指标有哪些?请简述。

  • Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)


1、你所在的行业,常用的数据分析指标有哪些?请简述。

我现在在一个财务软件公司做 DevOps 工具栈开发,不知道怎么定义公司,因为外界和我自己都认为公司是财务、ERP 软件公司,但是现在公司努力去掉这种标签,我们要变成一家 PASS 平台公司,卖服务。


首先从工作本身来说:

  1. 常用网站性能测试指标响应时间

并发数、吞吐量、对于网站,可以用“请求数/秒”、“页面数/秒”、“访问人数/天”、“处理的业务数/小时”等来衡量、TPS(每秒事务数)也是吞吐量的一个指标,此外还有 HPS(每秒 HTTP 请求数)、QPS(每秒查询数)等


上述来源于课程,工作中也有接触,因为运维同事会监控它们,以判断云服务器资源是否需要调整。


  1. 数据指标

描述服务器或操作系统性能的一些数据指标。包括 system load、对象与线程数、内存使用、CPU 使用、磁盘与网络 I/O 等。这些指标也是系统监控的重要参数,对这些指标设置报警阈值,当监控系统发现性能计数器超过阈值的时候,就向运维和开发人员报警,及时发现处理系统异常。


因为公司所有的云服务器资源,包括但不限于阿里、华为、腾讯、AWS 等,都在我们部门管理,虽然不在我们组,但是略有耳闻。


  1. 我开发接触的


首先质量:产品 SLA、线上事故事件数、用户活跃趋势 24 小时(我们是企业用户,一般用户量不多,只是操作复杂,我们属于企业管理软件一类)、用户点击趋势(用户点击操作一次算一次)、租户趋势规模(我们的租户就是一个公司,具体我也没问,多个租户就是多个公司)、用户日活趋势(一年)、业务异常(按天,我们是从 ElasticSearch 里面采集错误日志,现在每天上千万错误记录,我设计的 Java 采集程序有点扛不住)、租户环境版本分布图、灰度版本验证情况、公有云灰度版本分布、沙箱灰度、在研补丁、项目组测试情况(进度百分比)、bug 遗留情况,其它的用户活跃、使用设备等,在上周作业里面已经提到了,就不重复。


2、Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)


PageRank 算法,又称佩奇排名,是 Google 公司对其搜索引擎搜索结果中的网页进行排名的一种算法。


PageRank 算法通过输出概率分布来体现某人随机地点击某个链接的概率——PR 值。


算法定义有点抽象,我们通过一个简化版的示例来介绍一下如何计算 PR 值。假设总共只有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:



简单 PR 计算 1

再比如 B 链接到 A 和 C;C 链接到 A;并且 D 链接到 A、B、C:



简单 PR 计算 1

B 就会分出去半票 给 A 、C ;C 给 A 一票;D 给其他各页面三分之一票,结果PR(A)的值就是:



加权的 PR 值

概括一下:算法会根据每个页面总出度L(x)——指向其他页面的总个数——平分该页面的 PR 值,并将其加到所指向的页面:



加权的 PR 值

算法最后会添加一个系数 d 做修正:

  • 给添加出度权重后的 PR 值再乘上该修正系数 d

  • 并保证每个页面的最小值为 (1-d) / NN 为集合中网页的数目

p.s. d是根据上网者使用浏览器书签的平均频率估算而得,大约为 0.85

我们得到:


修正后的 PR 值

同理,我们把该公式泛化到所有的页面,即:



所有的 PR 值

写成矩阵形式:集合中所有页面的 PR 值可以由一个特殊的邻接矩阵的特征向量表示,这个特征向量 R 为:



向量形式 PR

PageRank 算法中,一个页面的 PR 值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的 PR 值,通过上述公式经过多次迭代,这些页面的 PR 值会收敛某个定值,即最终结果。



矩阵迭代

参考链接:https://www.jianshu.com/p/5dd2e7086807


用户头像

晴空万里

关注

还未添加个人签名 2018.07.18 加入

还未添加个人简介

评论 (1 条评论)

发布
用户头像
大数据这两周课很痛苦,作业也是参考的。第二题。
2021 年 01 月 15 日 08:50
回复
没有更多了
第十三周课后练习