架構師訓練營 week13 總結
大数据计算引擎 Spark
Spark 特點
- DAG 切分的多階段計算更快速 
- 使用內存存儲中間計算更快速 
- RDD 的邊程模型更簡單 
RDD (Resilient Distributed Datasets) 是 Spark 的核心概念
 
  
  
 流处理计算:Flink、Storm、Spark Streaming
實時計算系統
- 低延遲 
- 高性能 
- 分佈式 
- 可伸縮 
- 高可用 
大数据基准测试工具 HiBench
some benchmarks
- Micro 
- sort 
- wordcount 
- teracount 
- HDFS 
- throughput 
- Web search 
- Nutch indexing 
- PageRank 
- Data Analytics 
- Hive query 
- Machine learning 
大数据分析与可视化
指標
- 新增用戶數 
- 用戶留存率 
- 用戶流失率 
- 活躍用戶數 
- PV 
- GMV 
- 轉化率 
圖
- 折線圖 
- 散點圖 
- 熱力圖 
- 漏斗圖 
网页排名算法 PageRank
PageRank 讓鏈結來投票
 
 分类和聚类算法
KNN 分類算法
 
 TF-IDF 算法
 
 推荐引擎算法
基本上就是分類,可由 input 來分類,也可由 output 來分類,找出關連的選項
机器学习与神经网络算法
用一堆數學公式找出模型,預測輸出











 
    
评论