架构师训练营第 12 周:数据应用(一)
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
销售相关
- 客单价、货单价
- 销售周期情况
客户相关
- 新老客判定
- 拉新成本
- 用户画像、用户标签、用户偏好
- 用户浏览轨迹
商品相关
- 商品库存
- 新款销售情况、是否值得继续投入
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
map 函数输入的是 key value。 key 是偏移量,value 是一行记录<userid,pageid>或<userid,age>
| key | value |
| ------ | -------- |
| 偏移量 | <111,1> |
| 偏移量 | <111,2> |
| 偏移量 | <222,1> |
| 偏移量 | <111,25> |
| 偏移量 | <222,32> |
map 函数输出是 key value。key 是 userid, value 是 <表编号,pageid> 或 <表编号,age>
| key | value |
| --- | ------ |
| 111 | <1,1> |
| 111 | <1,2> |
| 222 | <1,1> |
| 111 | <2,25> |
| 222 | <2,32> |
reduce 函数输入是 key values。key 是 userid , values 是相同 userid 合并的 value 列表: <表编号,pageid> <表编号,age>
| key | values |
| --- | ------------------ |
| 111 | <1,1> <1,2> <2,25> |
| 222 | <1,1> <2,32> |
reduce 输出是不同表的 value 进行 jion 的结果
| key | values |
| --- | ------ |
| 1 | 25 |
| 2 | 25 |
| 1 | 32 |
版权声明: 本文为 InfoQ 作者【看山】的原创文章。
原文链接:【http://xie.infoq.cn/article/ca277dfd1395243c659d8faf4】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论