写点什么

第十二周作业

用户头像
changtai
关注
发布于: 2020 年 09 月 01 日

1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

行业:AI(智能语音方向)

ASR、TTS、NLP、声纹、VAD 等语音技术都是基于深度学习技术,都需要大量标注好的数据进行模型训练和测试,大数据可以提供有力的支撑;

2. 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);
复制代码

Page_view 表和 user 表结构与数据示例如下:




Map 函数输入:table page_view 每一行文本; table user 每一行文本

Map 函数输出:输出 map, key:userid value:<tableid, pageid>; key:userid value:<tableid, age>

Reduce 函数输入:Map 的输出,经过 shuffle sort 作为输入

Reduce 函数输出:输出集合,每个元素包含 pageid,age


用户头像

changtai

关注

还未添加个人签名 2018.04.30 加入

还未添加个人简介

评论

发布
暂无评论
第十二周作业