Week13
本周主要学习内容
流计算
数据分析与机器学习
数据可视化
搜索引擎对搜索结果的排序原理
基础的机器学习算法
流计算
storm
实时的hadoop
实时计算系统
低延迟
高性能
分布式
可伸缩
高可用
基础概念
Spark Streaming
Flink
机器学习
数据可视化
通过采集到的数据,对数据进行分析,并进行可视化展示,如数据大盘,这也是大数据应用落地比较无痛的切入点。
各种数据分析指标及图表:
PV:活跃用户数
RMV:成交总金额
转化率
图表:拆线图、散点图、热力图、漏斗图
搜索引擎
采用PageRank对页面的投票数进行计算,得到PR值,搜索结果按PR值排序
机器学习算法
KNN分类算法
先有一些标注好分类的数据,每个样本数据计算与其分类的距离,汇聚到距离小的分类上。
文本特征提取
贝叶斯分类
经典的算法,之前主要用在垃圾邮件分类
感知机与神经网络
一般是简单的二分类函数,它更是组成机器学习重要的神经网络模型的基础。
神经网络由多层感知机组成,神经网络算法总的来说就是选择合理的感知机函数和感知机层数,经过大量数据迭代计算得到各层间的参数,最后就得到了能预测结果的模型。
机器学习系统架构
机器学习总的来说就是先要有样本数据,并对其所要预测的特征进行标注,经过合适的算法计算,得到一个函数模型,之后新数据放入函数中,就能预测出想要的结果。
评论