架构师第十二周作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
我所在的公司是做跨境电商的,对的B端,因此现在还没有应用大数据相关的技术。不过在整个行业来看的话,大数据的应用还是很广泛的,比如:
通过收集用户的行业数据,分析用户的喜好。推送相关的产品和有针对性的促销活动,实现精准营销
通过分析用户的行为数据,可以对用户进行分类,实现千人千面。通过对某类产品的使用分析,可以预测用户下次购买会是什么时候,提前对库存进行盘点,补货或是提醒用户商品可能在未来一段时间缺货,建议提前购买等策略。
通过对同行业竞品数据的分析,可以辅助公司的下一步决策和策略
对销售产品的数据分析,可以指导业务部门、营销部门的下一步动作,同时将公司的全链路打通,实现自动化的运营。
数据,一座蕴含无限价值的大山,如果人类合理安全的去发掘它,那么将会推动人类的快速发展,带来生活上的巨大改变。比如说:早上你准备出门的时候,自动根据你的行动路线和偏好,预约附件的出租车或是公交车到站情况,让你出门就能即时享受到相应的服务;中午你想点一份外卖,系统会根据你最近三个月的身体健康情况,向你推荐今天中午的营养摄入量,同时根据你的口味推荐相关的餐馆。等等。这只是数据这座大山的冰山一角。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
Page_view 表和 user 表结构与数据示例如下:
map函数主要是对来自两个文件中的数据打标签,因此,输入参数为:
key:文件偏移量
value:文件中的每一行记录
输出参数为:
key:来自不同文件的标识,比如Page_view为1,user为2
value: page_view的value为<pageid,userid>的集合
user的value为<userid,age>的集合
reduce函数主要是对map的输出数据进行联结、过滤生成最终结果
输入参数为:
key:来自不同文件的标识,比如Page_view为1,user为2
value: page_view的value为<pageid,userid>的集合
user的value为<userid,age>的集合
输出参数为:
key:这里可以为任意值,或取page_view的标识,表示最终结果以该表为基础
value:两表关联后的结果<pageid,age>
版权声明: 本文为 InfoQ 作者【傻傻的帅】的原创文章。
原文链接:【http://xie.infoq.cn/article/3c58596804bfa6b418d1d57a4】。文章转载请联系作者。
评论