写点什么

第十二周作业

用户头像
关注
发布于: 2020 年 12 月 13 日
  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?


二手手机行业,已知的大数据在公司里的应用有:计算价格(目前算出来的不准,业务不敢用),统计最近 N 天商家的一些信息等。


个人感受:大数据应用的基础是要有海量数据,像二手行业,基本是一个 2B 的领域,商家数据很少,难以应用大数据进行用户行为分析;而二手价格,跟手机品类、型号等有关,每天都可以产生很多数据,是可以用大数据来进行一些分析的;但是现在计算的价格不准,猜测可能是如下原因:一个是只有热门型号的手机价格数据才多,二是需要一个合适的算法,这样才能去预测价格走势,进行合理的定价。这样也导致对于那些不热门的型号的价格预测不准,而二手行业是一个对价格比较敏感的行业:价格定高了,卖不出去,每耽搁一天都会产生亏损;价格定低了,直接就产生亏损了。想必这就是目前业务上没有用大数据定价的原因。


在一个 2C 的电商系统中,大数据可以用来对用户行为进行分析,用户画像进而进行精准营销,来达到所谓的千人千面效果;还可以做风控。我司某个业务线也曾实验过千人千面,但是效果很不理想,感觉还是因为是 2B 的关系。


  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码


page_view 表:

map 函数输入:page_view 表一条记录

map 函数输出:<userid, <表编号, pageid>>


user 表:

map 函数输入:user 表一条记录

map 函数输出:<userid, <表编号, age>>


reduce 函数输入:上面两个 map 函数的输出

reduce 函数输出:<pageid, age>

用户头像

关注

还未添加个人签名 2018.11.22 加入

还未添加个人简介

评论

发布
暂无评论
第十二周作业