架构师训练营第 0 期第 13 周作业
作业一(任选其一):
你所在的行业,常用的数据分析指标有哪些?请简述。
新增用户数
用户留存率
用户流失率
活跃用户数
PV(Page View)
GMV(成交总金额)
转化率
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
作业二:
根据当周学习情况,完成一篇学习总结。
Spark
Spark生态体系
Spark VS Hadoop
Spark特点(Spark为什么更快)
Spark WordCount编程示例
作为编程模型的RDD
作为数据分片的RDD
Spark的计算阶段
Spark的作业管理
Spark的执行过程
流计算
Storm实时的Hadoop
Storm的基本概念
Stream Groupings
example
topology
Spout
Bolt
Storm应用场景(淘宝)
Spark Streaming
Flink
HiBench
Micro Benchmarks
HDFS Benchmarks
Web Search Benchmarks
Data Analytics Benchmarks
Machine Learning Benchmarks
安装与配置
大数据可视化
互联网运营常用指标
新增用户数
用户留存率
用户流失率
活跃用户数
PV(Page View)
GMV(成交总金额)
转化率
数据可视化图表与数据监控
折线图
散点图
热力图
漏斗图
大数据算法与机器学习
网页排名算法PageRank
PageRank让链接来“投票”
PageRank算法
KNN分类算法(K近邻算法)
数据的距离算法
欧式距离计算公式
余弦相识度计算公式
提取文本的特征值TF-ITF算法
TF(词频Term Frequency)
IDF(逆文档频率Inverse Document Frequency)
贝叶斯分类算法
K-means聚类算法
推荐引擎算法
基于人口统计的推荐
基于商品属性的推荐
基于用户的协同过滤推荐
基于商品的协同过滤推荐
机器学习系统架构
样本
模型
算法
感知机
神经网络
神经网络在手写数字识别中的应用
神经网络与围棋AI
评论