写点什么

架构师训练营第 12 周:数据应用(一)

用户头像
看山
关注
发布于: 2021 年 01 月 02 日
架构师训练营第 12 周:数据应用(一)

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?


  • 销售相关

- 客单价、货单价

- 销售周期情况

  • 客户相关

- 新老客判定

- 拉新成本

- 用户画像、用户标签、用户偏好

- 用户浏览轨迹

  • 商品相关

- 商品库存

- 新款销售情况、是否值得继续投入


分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?


INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码



map 函数输入的是 key value。 key 是偏移量,value 是一行记录<userid,pageid>或<userid,age>


| key | value |

| ------ | -------- |

| 偏移量 | <111,1> |

| 偏移量 | <111,2> |

| 偏移量 | <222,1> |

| 偏移量 | <111,25> |

| 偏移量 | <222,32> |


map 函数输出是 key value。key 是 userid, value 是 <表编号,pageid> 或 <表编号,age>


| key | value |

| --- | ------ |

| 111 | <1,1> |

| 111 | <1,2> |

| 222 | <1,1> |

| 111 | <2,25> |

| 222 | <2,32> |


reduce 函数输入是 key values。key 是 userid , values 是相同 userid 合并的 value 列表: <表编号,pageid> <表编号,age>


| key | values |

| --- | ------------------ |

| 111 | <1,1> <1,2> <2,25> |

| 222 | <1,1> <2,32> |


reduce 输出是不同表的 value 进行 jion 的结果


| key | values |

| --- | ------ |

| 1 | 25 |

| 2 | 25 |

| 1 | 32 |


发布于: 2021 年 01 月 02 日阅读数: 23
用户头像

看山

关注

公众号「看山的小屋」 2017.10.26 加入

游于码界,戏享人生。 未来不迎,当时不杂,既过不恋。

评论

发布
暂无评论
架构师训练营第 12 周:数据应用(一)