大数据解答 (一)
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
目前所在公司是互联网金融行业,主要业务覆盖支付、理财、贷款等互联网金融服务。大数据应用主要以下几方面:
一、系统运维
通过对基础设施、中间件、系统应用的日志收集、分析、可视化,可实现系统自动化运维,也对系统的可用性、性能有了数据的度量。可极大提升系统的稳定性、性能、容量规划、系统告警等运维能力。
具体应用包含:
i) 监控平台:基础设施监控、应用监控、调用链监控、日志统计分析、配置变更监控、告警中心、统计报表
ii)智能化运维平台:智能故障根因分析、自动治愈、智能告警、态势感知
二、产品&业务运营支撑
通过收集用户会员、用户行为、业务运行等相关日志,进行分析,完成各种业务分析报表、用户行为的分析、会员属性分析。为后期的产品设计、运营、决策提供数据支撑,还能为后续的个人化营销、智能推荐提供基础数据支持。具体应用包含:
i) 各业务BI数据报表:为各产品、业务提供各种纬度的数据分析报表
ii) 用户行为分析平台:提供行为分析、事件分析、漏洞分析、转化率分析、错误码分析
iii) 会员标签:会员客群、离线/实时会员标签
三、产品&服务技术支撑
利用大数据、人工智能等技术,实现个人性营销、风险控制、安全认证、OCR识别等功能,极大提升服务/产品的营销、安全、用户体验的能力。具体应用包含:
i) 推荐系统:通过离线、实时的数据分析,实现会员的个性化营销、智能推荐能力
ii) 智能风控:通过收集设备、会员、用户行为等信息,应用合理的风控模型,可实时对会员提供风险控制 能力
iii) 刷脸认证:通过刷脸认证能力,可实现快速、安全的登录、身份验证
iv) 银行卡识别:通过离线训练模型,再实时识别银行卡,为用户提升了安全和用户体验
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
Map函数
输入key
偏移量,一般不关注
输入value
page_view、user两个表记录的文本
输出key
各表中行记录的userid取值,比如:page_view表中111, 111, 222 user表中111, 222
输出value
需取出的字段的对应行数据<表编号, 对应字段取值>,比如:page_view表中<1, 1>,<1, 2>,<1, 1> user表中<2, 25>, <2, 32>
Reduce函数
通过MapReduce Shuffle处理后,相同的partition归集到一起,交给一个或多个reduce函数进行处理
输入key
Map函数中输出的对应key进行聚合并分类,把相同的key放在一起,比如:111, 222
输入value
Map函数中输出的对应key的value值,比如:111对应有<1, 1>, <1, 2>, <2, 25> 222对应有<1, 1>, <2, 32>
输出key
需统计字段的表中记录,比如:行记录中pageid字段 1, 2, 1
输出value
join后记录中对应值,比如:age值 25, 25, 32
版权声明: 本文为 InfoQ 作者【dony.zhang】的原创文章。
原文链接:【http://xie.infoq.cn/article/479a628023b7267a0e3362e4c】。文章转载请联系作者。
评论