写点什么

架构师第十二周作业

用户头像
傻傻的帅
关注
发布于: 2020 年 08 月 30 日



  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

我所在的公司是做跨境电商的,对的B端,因此现在还没有应用大数据相关的技术。不过在整个行业来看的话,大数据的应用还是很广泛的,比如:

  • 通过收集用户的行业数据,分析用户的喜好。推送相关的产品和有针对性的促销活动,实现精准营销

  • 通过分析用户的行为数据,可以对用户进行分类,实现千人千面。通过对某类产品的使用分析,可以预测用户下次购买会是什么时候,提前对库存进行盘点,补货或是提醒用户商品可能在未来一段时间缺货,建议提前购买等策略。

  • 通过对同行业竞品数据的分析,可以辅助公司的下一步决策和策略

  • 对销售产品的数据分析,可以指导业务部门、营销部门的下一步动作,同时将公司的全链路打通,实现自动化的运营。

数据,一座蕴含无限价值的大山,如果人类合理安全的去发掘它,那么将会推动人类的快速发展,带来生活上的巨大改变。比如说:早上你准备出门的时候,自动根据你的行动路线和偏好,预约附件的出租车或是公交车到站情况,让你出门就能即时享受到相应的服务;中午你想点一份外卖,系统会根据你最近三个月的身体健康情况,向你推荐今天中午的营养摄入量,同时根据你的口味推荐相关的餐馆。等等。这只是数据这座大山的冰山一角。



  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

复制代码

INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user uON
(pv.userid = u.userid);

Page_view 表和 user 表结构与数据示例如下:



map函数主要是对来自两个文件中的数据打标签,因此,输入参数为:

key:文件偏移量

value:文件中的每一行记录

输出参数为:

key:来自不同文件的标识,比如Page_view为1,user为2

value: page_view的value为<pageid,userid>的集合

user的value为<userid,age>的集合



reduce函数主要是对map的输出数据进行联结、过滤生成最终结果

输入参数为:

key:来自不同文件的标识,比如Page_view为1,user为2

value: page_view的value为<pageid,userid>的集合

user的value为<userid,age>的集合

输出参数为:

key:这里可以为任意值,或取page_view的标识,表示最终结果以该表为基础

value:两表关联后的结果<pageid,age>



发布于: 2020 年 08 月 30 日阅读数: 48
用户头像

傻傻的帅

关注

走自已的路,让别人无路可走 2019.09.18 加入

还未添加个人简介

评论

发布
暂无评论
架构师第十二周作业