WEEK-13 机器学习的学习心得
架构师要知道问题是。
怎么把大数据应用用起来应用与业务
应用1:大数据的可视化
机器是便宜的,数据是廉价的
数据大屏,是大数据落地的最简单的场景。
这件事情是比较简单的事情,将数据统计分析并展示。
应用2:互联网运营常用的数据指标
新增用户
用户留存率:留存用户数/当期新增用户数;
3日留存率做到 40%以上就算不错了 ;
和用户留存率对应的就是用户流失率;
活跃用户数:日活,月活:
PV:用户是否活跃
GMV:成交金总金额
和GMV配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等;
转化率:电商网站产生购买行为的用户与访问用户之比
转化率=有购买行为的用户数/总访问用户数
转化率,一般只有百分之几;
各种办法:个性化推荐,打折促销,免运费,送红包,分期支付
折线图 散点图 热力图 漏斗图
网页排名算法---PAGERANK
一般第一个结果 80% 有效;前3个结果是有效的结果
需要对全世界的网页进行排序;
有个大数据算法去做大数据计算;
排序的算法让链接去做这个事情
算法说明:每个页面算个RANK 值,当A页面包含了B页面的链接,则认为A页面给B页面投票了。
被指向的页面越多,则页面的RANK越高。
PR(A)=PR(B)/2 + PR(C)/1 + PR(D)/3
PAGERANGE的计算公式,转成大数据的程序
输入是什么,输出是什么。
也可以转成向量和矩阵的集合
写两个矩阵的计算的算法;
两个NXN的矩阵,怎么用MAPREDUCE来完成。
稀疏矩阵的处理。(大部分都是0 只有少数的有1)
KNN 分类算法
KNN算法,也叫K近邻算法
怎么计算距离
怎么计算两篇文章的距离。
要做两件事情:
(1)样本每个文章要变成一个特征向量
(2)待分类的文章页要变成特征向量
然后计算两个向量的距离
数据的距离算法
特征空间为 n
大数据的主要工作就是要做特征工程,即把原始属性建立成特征向量
提取数据,构建特征向量是大数据的主要耗时工作。
(特征工程,建模)
先定义一个N维的特征向量空间;
用特征向量计算距离;
常用的距离计算公式:
(1)欧式计算公式:
缺点会放大或缩小,比如:评价,有人都是3分,有人是5分,使用余玄更合适
(2)余玄相似度计算公式
根据应用场景来,
提取文本文件的特征值TF-IDF算法
TF是词频 = 词在文档中出现的次数/文档总词数
IDF是逆文档频率表示这个单词在所有文档中的稀缺程度
IDF= log( 所有文档总数 / 出现该词的文档数 )
通过逆文档频率,你们,我们等语气词就不会成为特征值
贝叶斯分类算法
K-MEANS 聚类算法
大部分实际应用的较多的是分类
有一类数据进行聚集
步骤1:随机取种子,取最近的
步骤2:
中心点不变的情况下,说明已分好类了
推荐引擎算法--几乎所有的应用都有这个算法
基于人口统计的推荐
基于用户的协同过滤推荐
学习心得:
(1)机器学习更多的还是概率学习,通过海量的数据进行特征分析,形成一个基于概率的数学公式的模型,然后用这个模型来对输入数据进行匹配,输出期望的结果。
(2)对于架构师来说,需要了解机器学习的运行机制和思路理念,再架构设计时才能更好的把握和业务软件、基础环境进行结合,达到业务期望的效果。
评论