写点什么

week13-- 课后总结

用户头像
Geek_165f3d
关注
发布于: 2020 年 09 月 23 日

1. spark

  • 特点:

  • DAG 切分的多阶段计算过程更快速

  • 使用内存存储结算结果更高效

  • RDD 的编程模型更简单

  • WordCount 示例


  • RDD 函数

  • 转换函数:返回值为 RDD

  • 执行函数:不返回 RDD

  • 执行过程


2.流式计算

1、Storm 作 实时计算系统,包含以下特性:

  • 低延迟

  • 高性能

  • 分布式

  • 可伸缩

  • 高可用



2、Spark Streaming

需要解决的问题

解决 流式输入的数据计算

设计思路

  • Spark Streaming 将数据 进行分段,数据分段的 一批批数据,

  • 将批处理 转换为 流式处理,

  • 再交给 Spark Engine ,按 批处理 计算数据;


3.大数据可视化

  • 数据大屏

  • 互联网运营常用数据指标

  • 新增用户数

  • 用户留存率

  • 活跃用户数

  • PV

  • GMV

  • 转化率

4.大数据与机器学习算法

  • PageRank 算法

  • KNN 分类算法

  • 数据的距离算法

  • 提取文本的特征值 TF-IDF 算法

  • 贝叶斯分类算法

  • K-means 聚类算法

  • 推荐引擎算法

  • 基于人口统计的推荐

  • 基于商品属性的推荐

  • 基于用户的协同过滤推荐

  • 基于商品的协同过滤推荐

  • 机器学习系统架构


5.关于思考和设计

  • 关于思维习惯

思维习惯是可以训练的,要学会训练自己的思维习惯;

通过训练进行突破,不要因为天赋不够就放弃;

  • 关于大型项目的源码

看一些好的文章分析;

或者通过日志分析,在代码中搜索,看日志的上下文;



用技术去解决业务问题;


用户头像

Geek_165f3d

关注

还未添加个人签名 2019.12.14 加入

还未添加个人简介

评论

发布
暂无评论
week13--课后总结