写点什么

架構師訓練營 week13 總結

用户头像
ilake
关注
发布于: 2020 年 12 月 20 日

大数据计算引擎 Spark


Spark 特點

  • DAG 切分的多階段計算更快速

  • 使用內存存儲中間計算更快速

  • RDD 的邊程模型更簡單

RDD (Resilient Distributed Datasets) 是 Spark 的核心概念




流处理计算:Flink、Storm、Spark Streaming

實時計算系統

  • 低延遲

  • 高性能

  • 分佈式

  • 可伸縮

  • 高可用

大数据基准测试工具 HiBench

some benchmarks

  • Micro

  • sort

  • wordcount

  • teracount

  • HDFS

  • throughput

  • Web search

  • Nutch indexing

  • PageRank

  • Data Analytics

  • Hive query

  • Machine learning

大数据分析与可视化

指標

  • 新增用戶數

  • 用戶留存率

  • 用戶流失率

  • 活躍用戶數

  • PV

  • GMV

  • 轉化率

  • 折線圖

  • 散點圖

  • 熱力圖

  • 漏斗圖

网页排名算法 PageRank


PageRank 讓鏈結來投票


分类和聚类算法

KNN 分類算法


TF-IDF 算法


推荐引擎算法

基本上就是分類,可由 input 來分類,也可由 output 來分類,找出關連的選項


机器学习与神经网络算法

用一堆數學公式找出模型,預測輸出

用户头像

ilake

关注

还未添加个人签名 2019.04.15 加入

还未添加个人简介

评论

发布
暂无评论
架構師訓練營 week13 總結