写点什么

WEEK-13 机器学习的学习心得

用户头像
蒜泥精英
关注
发布于: 2020 年 09 月 09 日
WEEK-13 机器学习的学习心得

架构师要知道问题是。

怎么把大数据应用用起来应用与业务



应用1:大数据的可视化

机器是便宜的,数据是廉价的



数据大屏,是大数据落地的最简单的场景。

这件事情是比较简单的事情,将数据统计分析并展示。



应用2:互联网运营常用的数据指标

新增用户

用户留存率:留存用户数/当期新增用户数;

3日留存率做到 40%以上就算不错了 ;

和用户留存率对应的就是用户流失率;



活跃用户数:日活,月活:



PV:用户是否活跃

GMV:成交金总金额

和GMV配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等;



转化率:电商网站产生购买行为的用户与访问用户之比

转化率=有购买行为的用户数/总访问用户数

转化率,一般只有百分之几;



各种办法:个性化推荐,打折促销,免运费,送红包,分期支付



折线图 散点图 热力图 漏斗图



网页排名算法---PAGERANK



一般第一个结果 80% 有效;前3个结果是有效的结果

需要对全世界的网页进行排序;

有个大数据算法去做大数据计算;

排序的算法让链接去做这个事情

算法说明:每个页面算个RANK 值,当A页面包含了B页面的链接,则认为A页面给B页面投票了。

被指向的页面越多,则页面的RANK越高。

PR(A)=PR(B)/2 + PR(C)/1 + PR(D)/3

PAGERANGE的计算公式,转成大数据的程序

输入是什么,输出是什么。

也可以转成向量和矩阵的集合

写两个矩阵的计算的算法;

两个NXN的矩阵,怎么用MAPREDUCE来完成。

稀疏矩阵的处理。(大部分都是0 只有少数的有1)



KNN 分类算法

KNN算法,也叫K近邻算法



怎么计算距离

怎么计算两篇文章的距离。

要做两件事情:

(1)样本每个文章要变成一个特征向量

(2)待分类的文章页要变成特征向量

然后计算两个向量的距离



数据的距离算法

特征空间为 n

大数据的主要工作就是要做特征工程,即把原始属性建立成特征向量

提取数据,构建特征向量是大数据的主要耗时工作。

(特征工程,建模)



先定义一个N维的特征向量空间;

用特征向量计算距离;



常用的距离计算公式:

(1)欧式计算公式:

缺点会放大或缩小,比如:评价,有人都是3分,有人是5分,使用余玄更合适

(2)余玄相似度计算公式

根据应用场景来,



提取文本文件的特征值TF-IDF算法

TF是词频 = 词在文档中出现的次数/文档总词数



IDF是逆文档频率表示这个单词在所有文档中的稀缺程度

IDF= log( 所有文档总数 / 出现该词的文档数 )

通过逆文档频率,你们,我们等语气词就不会成为特征值



贝叶斯分类算法



K-MEANS 聚类算法

大部分实际应用的较多的是分类

有一类数据进行聚集

步骤1:随机取种子,取最近的

步骤2:



中心点不变的情况下,说明已分好类了



推荐引擎算法--几乎所有的应用都有这个算法

基于人口统计的推荐

基于用户的协同过滤推荐



学习心得:

(1)机器学习更多的还是概率学习,通过海量的数据进行特征分析,形成一个基于概率的数学公式的模型,然后用这个模型来对输入数据进行匹配,输出期望的结果。

(2)对于架构师来说,需要了解机器学习的运行机制和思路理念,再架构设计时才能更好的把握和业务软件、基础环境进行结合,达到业务期望的效果。



用户头像

蒜泥精英

关注

还未添加个人签名 2018.09.19 加入

还未添加个人简介

评论

发布
暂无评论
WEEK-13 机器学习的学习心得