架構師訓練營 week13 總結
大数据计算引擎 Spark
Spark 特點
DAG 切分的多階段計算更快速
使用內存存儲中間計算更快速
RDD 的邊程模型更簡單
RDD (Resilient Distributed Datasets) 是 Spark 的核心概念
流处理计算:Flink、Storm、Spark Streaming
實時計算系統
低延遲
高性能
分佈式
可伸縮
高可用
大数据基准测试工具 HiBench
some benchmarks
Micro
sort
wordcount
teracount
HDFS
throughput
Web search
Nutch indexing
PageRank
Data Analytics
Hive query
Machine learning
大数据分析与可视化
指標
新增用戶數
用戶留存率
用戶流失率
活躍用戶數
PV
GMV
轉化率
圖
折線圖
散點圖
熱力圖
漏斗圖
网页排名算法 PageRank
PageRank 讓鏈結來投票
分类和聚类算法
KNN 分類算法
TF-IDF 算法
推荐引擎算法
基本上就是分類,可由 input 來分類,也可由 output 來分類,找出關連的選項
机器学习与神经网络算法
用一堆數學公式找出模型,預測輸出
评论