写点什么

极客大学架构师训练营 - 第十三周 - 总结

用户头像
sljoai
关注
发布于: 2020 年 09 月 08 日
极客大学架构师训练营-第十三周-总结
  1. Spark特点

  2. DAG切分的多阶段计算过程更快速

  3. 使用内存存储中间计算更高效;

  4. RDD的编程模型更简单

  5. 案例:WordCount

  6. 注意:所有的算子,都是在相同节点内进行的;

  7. reduceByKey

  8. 需要进行shuffle;

  9. 先在本地进行shuffle,再在

  10. RDD

  11. 上面的WordCount中textFile也是一个RDD

  12. MapReduce是一种面向过程的编程,RDD是一种面向对象的编程;

  13. DataFrame与RDD之间的关系是什么呢?!

  14. RDD上定义了两种函数

  15. 转换: transformation,会返回值和RDD

  16. 执行:不再返回RDD

  17. 函数

  18. reduceByKey(func,[numPartitions]): 根据key进行聚合,会产生新的RDD

  19. join(otherDataSet,[numPartitions]):连接数据集

  20. groupByKey([numPartitions]): 分组

  21. 作为数据分片

  22. 惰性计算:只有进行shuffle的时候,才会生成新的RDD;是否会产生新的RDD,不仅仅需要根据函数名来判断,还要看是否会产生新的分区;

  23. 窄依赖:无shuffle依赖,不需要跨分区

  24. 宽依赖:shuffle依赖,需要跨分区

  25. 技术判断力

  26. 参与开源项目,提升自己的影响力

  27. Spark的计算阶段

  28. stage如何划分呢?

  29. 算子

  30. map

  31. union

  32. groupBy

  33. join

  34. 一个计算任务会放到一个节点上执行;

  35. Spark的作业管理

  36. Spark的执行过程

  37. Spark生态体系

  38. 这一块没听懂,需要再看,好好理解?



  1. Storm

  2. 基本概念

  3. 

  1. 

  2. 整体架构

  3. 



  1. 

  1. 

  2. example

  3.  

  4. topology

  5. Spout

  6. Bolt

  7. Impala

  8. MPP 与 大数据计算的对比

  9.  MPP不需要进行分发任务

  10. Impala的MPP架构

  11. 



  1. 

  1. 

  2. 图中橙色的部分是Impala的进程;

  3. Coordinator通过State Store感知彼此;

  4. 计算任务的中间结果都存储在内存中的;



大数据可视化

MapReduce是硬盘型的,Spark是内存型的;

数据分析与数据挖掘

数据大屏

  1. 有哪些开源的数据大屏系统可供参考呢?

互联网运营常用数据指标

  1. 新增用户数

  2. 可以自定义:比如墨迹天气不需要注册,则与机器设备相关

  3. 日新增用户数

  4. 周新增用户数

  5. 月新增用户数

  6. 会呈抛物线状;

  7. 用户留存率

  8. 留存用户数/当期新增用户数

  9. 用户流失率

  10. =1-用户留存率

  11. 活跃用户数:反映产品黏性和吸引力

  12. 打开使用产品的用户数;

  13. 日活跃用户数

  14. 月活跃用户数

  15. PV:统计网页访问统计

  16. 打开以后是否频繁操作,比如用户单次点击、每个页面跳转

  17. APP如何进行统计呢?

  18. GMV:成交总金额,Gross Merchandise Volume,反映网站营收能力

  19. 电商网站统计营业额(流水)

  20. 订单量:用户下单总量

  21. 客单价:单个订单的平均价格

  22. 转化率

  23. 在电商网站产生购买行为的用户与访问用户之比;

  24. =有购买行为的用户数 / 总访问用户数

数据可视化图表与数据监控

折线图



散点图

  1. 快速发现数据分布上的规律与趋势

漏斗图

  1. 在用户的整个访问路径中每一步的转化率

热力图

  1. 分析网站页面被用户访问的热点区域,以更好地进行页面布局和视觉展示;



大数据算法与机器学习

网页排名算法 PageRank

KNN

  1. 如何计算两篇文章的距离呢?!

  2. 统计每篇文章的向量,特征向量:

TF-IDF

  1. TF:某个单词在文档中出现的频率

  2. =(某个词在文档中出现的次数)/文档总词数

  3. IDF:某个单词在所有文档中的稀缺程度

  4. =log(所有的文档总数/出现该词的文档数)

贝叶斯分类算法



K-means

推荐引擎算法

  1. 基于人口统计的推荐

  2. 基于商品属性的推荐

  3. 基于用户的协同过滤推荐

  4. 基于商品的协同过滤推荐

  5. 如何基于Bert来进行推荐呢?



发布于: 2020 年 09 月 08 日阅读数: 42
用户头像

sljoai

关注

还未添加个人签名 2017.11.09 加入

还未添加个人简介

评论

发布
暂无评论
极客大学架构师训练营-第十三周-总结