架构师训练营作业 -20200830
你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值
个人所在的公司目前正在运行中的业务没有太多与大数据相关的场景,微博、微信公众号的运营情况、访问分析等数据虽然涉及大数据应用场景,但是实际使用的时候都是直接使用的第三方平台已经计算完毕的结论,目前尚未在开发层面应用大数据手段。
就目前通用的场景而言,以下的业务场景可通过大数据处理:
1、人脸感知&人脸识别:通过分析海量人脸特征数据的基础上,可以对视频流/图片中存在的疑似人脸的区域进行识别,目前安卓5以上的操作系统中已内置了此功能;此外,基于一定量的人脸图片数据训练的基础上,可以实现对目标图片中的人脸的进行识别,即判断人脸信息是否为内部员工,用以实现上下班打卡,通过刷脸替代门禁卡等场景;
2、智能语音客服:对于引入了IVR系统的公司来说,相对于传统按键模式的IVR交互方式,目前正在逐步推广“智能语音客服系统”,即主叫方可以说出自己需要咨询的内容,由系统进行分析后转接至相应的坐席,或直接通过语音合成方式将答案朗读出来,可以拜托传统IVR的按键限制,无需用户一级一级的再不同层级的菜单中查找与自己预期匹配的功能;这其中涉及到包括语音转文字(ASR)功能,及自然语言识别(NLP)两个大数据的应用场景,前者通过分析并比对主叫方语音的特征分析出语音对应的文本内容,后者通过文本内容分析用户询问的内容,并给出相应的答案;
3、各种报表类型的应用:除了简单的浏览量、独立IP数等可通过简单由数据库进行COUNT或COUNT(DISTINCT)操作即可获得的统计结果外,对于复杂性的统计运算,如计算一个流程中每个步骤的用户流失率,计算某个应用的三日/七日/十日留存率,甚至通过应用服务器的访问日志计算用户的访问路径、找出用户流量最大的访问入口及每个页面最主要的用户流向等,都需要借助大数据手段进行,而这些指标对后续产品的迭代优化,可以提供最为客观的描述,支持运营人员决策。
分析如下HiveSQL,生成的MapReduce执行程序,map函数输入是什么,输出是什么?reduce函数输入是什么,输出是什么?
map函数:
输入:
key:该行记录在原始数据文件中的偏移量;
value:该行记录的内容;
输出:
key:该行记录的userid;
value:为一个键值对,键为该数据文件的唯一标识,可以近似理解为数据表的别名;value为原始数据中的pageid字段的值;
reduce函数:
输入:
key:数据中的userid,相同的userid会出现在同一个reduce中;
value:为一个键值对,键为该数据文件的唯一标识,可以近似理解为数据表的别名;value为原始数据中的pageid或age字段,取决于key的内容,即不同的数据表对应各自的value;
输出:
key:pageid;
value:age
评论