极客大学 - 架构师训练营 第十二周作业
作业一
题目一: 系统高可用
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
答案: 我所处的行业是金融行业,并且是金融行业里面比较低调的对冲基金领域,那么就基于自己所在的这个领域,来回答以下大数据在对冲基金领域的应用。
最新对冲基金的超级计算机
从全球市场的参与主体来看,按照管理资产的规模,2018年全球排名前四以及前六位中的五家资管机构,都是依靠计算机技术来开展投资决策,而且进入2019年由量化及程序化交易所管理的资金规模进一步扩大。
近日,国内领先的对冲基金公司「幻方」宣布,其新一代AI超级计算机“萤火一号”,已于2020年3月正式投入运行。该服务器是由一个存储集群和一个计算集群组成。存储集群提供4.1Tbps读写带宽以及1.2PB容量。计算集群搭载1100张高端显卡,每秒可以进行1.84亿亿次浮点运算,相当于4万台个人电脑算力。
而在全球著名对冲基金Two Sigma的主页上,公司介绍中写到,只有基于数据的、不断优化迭代的科学方法才是最好投资方式。他们使用42 PB(1PB=1000TB,1TB=1000GB)数据用于投资模型,涵盖了10000个以上的数据源,并使用33万个CPU以上的集群处理数据。
金融数字化
数字化时代,基于传统统计、计量的方法已无法处理如此大的数据量。而机器学习、深度学习的优势随着大数据、计算机处理能力的飞速发展逐渐展现出来。
数据驱动的量化策略,是指通过相关数据,直接识别金融市场的模式或规律,寻找投资机会,这一直是对冲基金主流的策略模式之一。在数字化时代,这类策略将越来越得到重视,而机器学习自然是这类策略主要的技术与方法之一。
所谓量化交易,就是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,极大地减少了投资者情绪波动的影响,避免在市场极度狂热或悲观的情况下作出非理性的投资决策。
下图说明了近15年以来数据的增长情况
IDC预计,到2025年全球数据每年将达到163ZB。随着石油的价格一降再降,将数据比作世界上最有价值的资源,已然没有任何疑问。
数据将使我们有机会改进我们的决策,在经济、社会中的作用将更加举足轻重。越来越多的公司使用这些数据用于企业自身决策,并为他们的客户提供更好的服务。那些能够充分利用数据为用户服务,解决问题的企业将会在新的竞争中脱颖而出。
在金融投资领域亦是如此,来自手机、社交媒体、物联网各式传感器的数据,将对金融投资机构的数据处理能力提出挑战。能收集更大范围、更实时的数据,并有能力处理分析并发现新投资价值的机构,必将获得更强的竞争力。
数据全息化
柏拉图在《理想国》中有一个著名的比喻——洞穴之喻(Allegory of the Cave)。
设想在一个地穴中有一批囚徒,他们自小被锁链束缚,不能转头,只能看见面前洞壁上的影子。在他们后上方有一堆火,有一条横贯洞穴的小道,沿小道筑有一堵矮墙,如同木偶戏的屏风。人们扛着各种器具走过墙后的小道,而火光便把那些器物的影像投射到面前的洞壁上,囚徒自然地以为影子是惟一真实的事物。
数据就像印在壁洞上的影像——人们试图利用低维的数据,去描绘一个高维的事实。这和我们认为,在数字化时代亦不存在全局性信息,大抵是一个含义。但数字化时代,墙壁上将不再是火把的倒影,各种器具进行数据化处理,可以生成一个全息的影像,这必然能让洞穴人感知到一个更加真实的世界。
不远的未来,随着物理世界数字化不断发展,数据就不再是一个火把照出的影像,而是成为一个全息影像。更多维度、更实时的数据,将帮助我们真正理解我们的周遭环境、事物以及我们自己。
信息熵
信息熵(Information Entropy)是对信息的量化度量,也是对不确定性的度量。信息和不确定性是逆向关系,有效信息可以减少不确定性,增加确定性。金融市场,如果对某个资产价格非常不确定,市场参与各方都有不同预期,资产价格就会剧烈波动。需要大量信息才能消除这不确定性,随着信息不断在市场中传播,资产价格的不确定性也不断下降逐步趋于均衡价。
在数字化时代,而且,金融系统中原有抽样统计中被忽略的变量也将被有效收集,大数据不同于统计样本抽样,是更大的样本集,甚至是全样本集,有效避免样本统计过程中的信息损失。
金融领域的机器学习以及实现价值
面对大数据集时,部分统计学习算法无法处理大数据的高维、稀疏、海量等特性。之后,随着分布式存储、计算技术、分布式机器学习平台的发展,机器学习能够有效处理更大规模的数据集,大数据的价值才更好的得到体现,才有了数据被认为是世界上最重要的资源一说。所以,大数据与机器学习是相辅相成的。在金融领域,更是如此。
大数据将原有抽样样本集变为全量样本集,呈现出抽样样本上无法揭示的规律。并且机器学习、深度学习模型在大数据集上,能够更有效地学习之前统计模型中忽略的那些结构和关系,这也是之前所说数据中无法处理的信息中的一部分,从而可能得到更好的模型预测效果。在数据处理、收集成本的下降的同时,机器学习、算法的成本也下降了,并且易用性也提高了。机器学习算法的实现已然不是各领域应用人工智能需要考虑的问题。
那些云计算供应商们会不断降低机器学习的应用成本并提高易用性。也就是说预测的性价比将越来越高,金融投资领域也不例外,机器学习的应用将无处不在。另外,金融投资领域和各行各业的发展都息息相关,既然实体经济都在数字化、智能化,自然金融投资领域也必须数字化、智能化。
金融投资机构的目标是在他们的公司中投资的决策各个环节嵌入大数据,进行投资全流程数字化升级,将数据的分析结果作为投资依据的重要来源。而其目的都是为了将大数据和机器学习纳入投资决策流程中。将大数据,机器学习融入原有金融投资机构在线交易决策、风控系统中,并支持线下策略、风控模型研究,从而更好的收获投资利润。
面对数字化时代不断发展,物理世界、实体经济数字化进程加速,金融投资机构应该以更加开放的心态,将机器学习等技术有效融合到原有投资决策流程中才能获得行业竞争优势。
题目二: 分析MapReduce的输入输出
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
page_view 表和 user 表结构与数据示例如下
答案: 首先分析给出的两个表page_view
和 user
。可以看出这两张表通过userid
来进行关联。所以Map
的输出可以知道是以userid
为key
。
Map
page_view表
Map函数输入:
map(key: Offset, value: line_of_page_view, ...)
key
是value
所在行的偏移量value
是page_view
表中某一行的文本内容
Map函数输出:
key
就是 userid 的值value
是一个键值对,键是表编号, 值就是pageid
key: 111, {page_view: 1}
key: 111, {page_view: 2}
key: 222, {page_view: 1}
user表
Map函数输入:
map(key: Offset, value: line_of_user, ...)
key
是value
所在行的偏移量value
是user
表中某一行的文本内容
Map函数输出:
key
就是 userid 的值value
是一个键值对,键是表编号, 值就是pageid
key: 111, {user: 25}
key: 111, {user: 32}
Shuffle
Shuffle 会将上述 两个Map函数的输出结构按 Key 值(userid)排序以及合并,会生成如下内容再交给不同的 Reduce 服务计算:
{111: {user:25}}
{111: {page_view:1}}
{111: {page_view:2}}
{222: {user:32}}
{222: {page_view:1}}
Reduce
Reduce的输入就是以上shuffle的输出
Reduce的输出则是在不同表格的基础上,从values
中过滤出age
和pageid
两个数组,再进行结合操作
<pageid, age>
1, 32
1, 25
2, 25
版权声明: 本文为 InfoQ 作者【9527】的原创文章。
原文链接:【http://xie.infoq.cn/article/371be7efabce7e4288d85066f】。文章转载请联系作者。
评论