架构师训练营 No.12 周作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
近些年我司主要在金融机构反洗钱可疑交易监测、客户洗钱风险评级业务方面,利用大数据、机器学习弥补传统规则算法不足,构建智能化系统,帮助客户进行洗钱可疑交易监测分析。
一直以来,金融机构反洗钱工作的开展,主要依赖于反洗钱专家经验规则。但随着金融机构交易量逐年增长,可疑交易宗数也是持续增长,仅通过人工规则优化来减少可疑案件量,难以建立规则优化的长效机制。特别值得注意的是,随着金融和非金融交易业务不断更新,洗钱行为正变得越来越扑朔迷离。当网络银行、电子货币、电子交易出现以后,精通电子技术的洗钱者踪迹变得更加飘忽不定。
每年的可疑交易量显著增加,仅通过人工规则优化来减少可疑案件量,难以建立规则优化的长效机制。而识别的可疑交易仅以随机方式分配给调查员,无法根据调查员的资历与最佳工作时间合理分配案件调查任务。可疑案件描述信息依赖人工总结,这影响了案件上报流程效率以及案件审核流程信息的可管理性、可追溯性。对此,大型金融机构需要提升反洗钱审查管理效率。大型金融机构交易基数大,系统报警的可疑交易数量庞大,而人工审核后上报率低,耗费了大量的人力审核成本,迫切需要“大数据、人工智能”技术手段,指导和优化反洗钱工作体系。
以往构建反洗钱系统主要是专家规则,对样本进行抽样,仅使用最具区分度的统计信息,无法吸收低饱和、噪音数据,规则数量有限(10-1000);容易抓大放小,常需要人工修正错误,不易扩展新特性,触发量不宜控制。
而采用大数据机器学习,可以迭代自学习,易扩展新特性,全样本集分析,机器学习量化的方式更加准确,有明确的优化目标。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:


Map函数
输入:page_view, user表的一行行数据。
输出:格式形如<key, value<tno,data>>,key是两个表关联的userid值;value形如<tno, data>,其中tno是表的序号:1-page_view表,2-user表,data表示从相应表中数据,如tno为1,则data为pageid值,如果tno为2,则data为age值。
reduce
输入:Map函数的输出经过Shuffle Sort之后的数据。
输出:格式形如<key, result<pageid,age>>,key为userid, result是<pageid,age>。
评论