十二周作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
二手手机行业,已知的大数据在公司里的应用有:计算价格(目前算出来的不准,业务不敢用),统计最近 N 天商家的一些信息等。
个人感受:大数据应用的基础是要有海量数据,像二手行业,基本是一个 2B 的领域,商家数据很少,难以应用大数据进行用户行为分析;而二手价格,跟手机品类、型号等有关,每天都可以产生很多数据,是可以用大数据来进行一些分析的;但是现在计算的价格不准,猜测可能是如下原因:一个是只有热门型号的手机价格数据才多,二是需要一个合适的算法,这样才能去预测价格走势,进行合理的定价。这样也导致对于那些不热门的型号的价格预测不准,而二手行业是一个对价格比较敏感的行业:价格定高了,卖不出去,每耽搁一天都会产生亏损;价格定低了,直接就产生亏损了。想必这就是目前业务上没有用大数据定价的原因。
在一个 2C 的电商系统中,大数据可以用来对用户行为进行分析,用户画像进而进行精准营销,来达到所谓的千人千面效果;还可以做风控。我司某个业务线也曾实验过千人千面,但是效果很不理想,感觉还是因为是 2B 的关系。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
page_view 表:
map 函数输入:page_view 表一条记录
map 函数输出:<userid, <表编号, pageid>>
user 表:
map 函数输入:user 表一条记录
map 函数输出:<userid, <表编号, age>>
reduce 函数输入:上面两个 map 函数的输出
reduce 函数输出:<pageid, age>
评论