第十三周课后练习
作业一:
(至少完成一个)
你所在的行业,常用的数据分析指标有哪些?请简述。
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
1、你所在的行业,常用的数据分析指标有哪些?请简述。
我现在在一个财务软件公司做 DevOps 工具栈开发,不知道怎么定义公司,因为外界和我自己都认为公司是财务、ERP 软件公司,但是现在公司努力去掉这种标签,我们要变成一家 PASS 平台公司,卖服务。
首先从工作本身来说:
常用网站性能测试指标响应时间
并发数、吞吐量、对于网站,可以用“请求数/秒”、“页面数/秒”、“访问人数/天”、“处理的业务数/小时”等来衡量、TPS(每秒事务数)也是吞吐量的一个指标,此外还有 HPS(每秒 HTTP 请求数)、QPS(每秒查询数)等
上述来源于课程,工作中也有接触,因为运维同事会监控它们,以判断云服务器资源是否需要调整。
数据指标
描述服务器或操作系统性能的一些数据指标。包括 system load、对象与线程数、内存使用、CPU 使用、磁盘与网络 I/O 等。这些指标也是系统监控的重要参数,对这些指标设置报警阈值,当监控系统发现性能计数器超过阈值的时候,就向运维和开发人员报警,及时发现处理系统异常。
因为公司所有的云服务器资源,包括但不限于阿里、华为、腾讯、AWS 等,都在我们部门管理,虽然不在我们组,但是略有耳闻。
我开发接触的
首先质量:产品 SLA、线上事故事件数、用户活跃趋势 24 小时(我们是企业用户,一般用户量不多,只是操作复杂,我们属于企业管理软件一类)、用户点击趋势(用户点击操作一次算一次)、租户趋势规模(我们的租户就是一个公司,具体我也没问,多个租户就是多个公司)、用户日活趋势(一年)、业务异常(按天,我们是从 ElasticSearch 里面采集错误日志,现在每天上千万错误记录,我设计的 Java 采集程序有点扛不住)、租户环境版本分布图、灰度版本验证情况、公有云灰度版本分布、沙箱灰度、在研补丁、项目组测试情况(进度百分比)、bug 遗留情况,其它的用户活跃、使用设备等,在上周作业里面已经提到了,就不重复。
2、Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank 算法,又称佩奇排名,是 Google 公司对其搜索引擎搜索结果中的网页进行排名的一种算法。
PageRank 算法通过输出概率分布来体现某人随机地点击某个链接的概率——PR 值。
算法定义有点抽象,我们通过一个简化版的示例来介绍一下如何计算 PR 值。假设总共只有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:
简单 PR 计算 1
再比如 B 链接到 A 和 C;C 链接到 A;并且 D 链接到 A、B、C:
简单 PR 计算 1
B 就会分出去半票 给 A 、C ;C 给 A 一票;D 给其他各页面三分之一票,结果PR(A)
的值就是:
加权的 PR 值
概括一下:算法会根据每个页面总出度L(x)
——指向其他页面的总个数——平分该页面的 PR 值,并将其加到所指向的页面:
加权的 PR 值
算法最后会添加一个系数 d
做修正:
给添加出度权重后的 PR 值再乘上该修正系数
d
并保证每个页面的最小值为
(1-d) / N
,N
为集合中网页的数目
p.s. d
是根据上网者使用浏览器书签的平均频率估算而得,大约为 0.85
我们得到:
修正后的 PR 值
同理,我们把该公式泛化到所有的页面,即:
所有的 PR 值
写成矩阵形式:集合中所有页面的 PR 值可以由一个特殊的邻接矩阵的特征向量表示,这个特征向量 R 为:
向量形式 PR
PageRank 算法中,一个页面的 PR 值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的 PR 值,通过上述公式经过多次迭代,这些页面的 PR 值会收敛某个定值,即最终结果。
矩阵迭代
参考链接:https://www.jianshu.com/p/5dd2e7086807
评论 (1 条评论)