week12- 作业一
1、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
本公司主要做自动化接口测试,本公司主要使用大数据统计接口参数覆盖率、用例构建效率、用例执行效率、用例执行通过率;大数据改善了以前手工汇总数据、统计数据的工作方式;提升了用例的有效性、构建效率;加快了用例执行结果的呈现;
2、分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);
page_view 表和 user 表结构与数据示例如下
page_view 的 map 函数输入: key 表示文件中偏移量;value 表示文件中的一行数据;
输出: key 是 userid ;value 是表编码和所需字段(pageid)的二元组;
user 的 map 函数输入: key 表示文件中偏移量;value 表示文件中的一行数据;
输出: key 是 userid ;value 是表编码和所需字段(age)的二元组;
reduce 函数输入:key 是 userid ;values 是表编码和所需字段二元组的集合;
输出:key 是 userid ;value 是所需字段(pageid,age)的二元组;
评论