写点什么

Week13

用户头像
SuperLab
关注
发布于: 2020 年 09 月 24 日

本周主要学习内容

  • 流计算

  • 数据分析与机器学习

  • 数据可视化

  • 搜索引擎对搜索结果的排序原理

  • 基础的机器学习算法





流计算

storm

  • 实时的hadoop

  • 实时计算系统

  • 低延迟

  • 高性能

  • 分布式

  • 可伸缩

  • 高可用

  • 基础概念



Spark Streaming



Flink



机器学习

数据可视化

通过采集到的数据,对数据进行分析,并进行可视化展示,如数据大盘,这也是大数据应用落地比较无痛的切入点。

各种数据分析指标及图表:

  • PV:活跃用户数

  • RMV:成交总金额

  • 转化率

  • 图表:拆线图、散点图、热力图、漏斗图



搜索引擎

采用PageRank对页面的投票数进行计算,得到PR值,搜索结果按PR值排序

机器学习算法

KNN分类算法

先有一些标注好分类的数据,每个样本数据计算与其分类的距离,汇聚到距离小的分类上。

文本特征提取



贝叶斯分类

经典的算法,之前主要用在垃圾邮件分类



感知机与神经网络
  • 一般是简单的二分类函数,它更是组成机器学习重要的神经网络模型的基础。

  • 神经网络由多层感知机组成,神经网络算法总的来说就是选择合理的感知机函数和感知机层数,经过大量数据迭代计算得到各层间的参数,最后就得到了能预测结果的模型。

机器学习系统架构



机器学习总的来说就是先要有样本数据,并对其所要预测的特征进行标注,经过合适的算法计算,得到一个函数模型,之后新数据放入函数中,就能预测出想要的结果。



用户头像

SuperLab

关注

还未添加个人签名 2020.04.01 加入

还未添加个人简介

评论

发布
暂无评论
Week13