第十二周作业
作业一:
(至少完成一个)
你所在的行业,常用的数据分析指标有哪些?请简述。
我所在的是 HPC 行业,如何减少 IT 基建的投入,资源最大化使用,提升有效利用率,为业务省钱的同时也帮其赚钱。常用的数据分析指标有:
1. CPU 利用率,包括平均利用率与 Pn 峰值利用率
2. 内存利用率,包括平均利用率与峰值利用率
3. 网络的时延,丢包率,带宽等
4. 不同类型的任务对不同服务器硬件、操作系统、软件版本、时间特性的要求。
5. 各种软件的许可如何更合理的购买和分配也是各大小公司的关注点,在 HPC 行业尤为突出。用好了则能省一大笔钱。
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
被引用次数越多,该搜索结果越多人关注因此打分越高,搜索引擎将分数越高的结果排在前面。为了避免自引用的次数导致打分陷入自引用循环而导致分数无限增加(一种作弊行为),算法会定义随机跳出该页面。
当然,搜索结果中广告会优先“插队”到搜索的最前面。
作业二:
根据当周学习情况,完成一篇学习总结
本周初始批处理和流处理,这两者有固有的联系:批处理可以将每一批设置到一个很小的(时间)级别,处理可视为流处理;反过来,流处理设置为一个个小的时间窗口,每个时间窗口内的数据统一进行一次批计算。
互联网企业面对的海量用户,谁能利用好数据谁就能占领高地。像商品推荐这个功能,很有感触:在某平台上搜索过一次的商品,之后每个平台上都推荐这类商品,各互联网企业多多少少在数据上都是有互相合作的。字节跳动能异军突起,很大原因就是推荐算法做的很不错。而这家公司也是我的目标之一!
版权声明: 本文为 InfoQ 作者【TheSRE】的原创文章。
原文链接:【http://xie.infoq.cn/article/48452700746a33895c02c19da】。文章转载请联系作者。
评论