跨越数据的“叹息墙”:华为下一代数据湖与 HPDA 时代
公元前 586 年,耶路撒冷的第一圣殿被入侵的巴比伦军队摧毁,所罗门王朝的恢弘建筑只留下一座“叹息之墙”。从此开始,“叹息墙”经常被比喻为那些时代难以跨越的鸿沟。在大数据与智能时代,千行百业拥有了前所未有的数据种类、数据存量和数据应用方式,但这些海量的数据也同时造成了严苛的挑战,给很多行业、企业塑造了一道由数据组成的“叹息墙”。
想要以超高的算力、多元化的智能算法攻克产业难题,拓展价值边界,首先需要跨越数据鸿沟,将庞大的数据由负担转化为助力。
尤其对于 HPC(高性能计算)场景来说,丰富的数据正在带给计算体系以深刻的价值变革,推动 HPC 的任务目标、任务实现方式与应用承载方式产生一系列升级。HPC 正在走向 HPDA(高性能数据分析)的跃迁之路。
3 月 23 日,华为宣布创新数据基础设施体验中心及行业创新体验中心在成都落成,该体验中心旨在搭建一个面向全球政府、金融、医疗、教育、能源等行业的技术交流与合作平台。在参观创新数据基础设施体验中心的过程中,华为推出的下一代数据湖解决方案 OceanStor Pacific 让我产生了不小的兴趣。
让我们从数据与计算的新发展周期说起,聊聊华为 OceanStor Pacific 给产业探索带来的新可能。
不能让数据成为“叹息墙”:HDPA 为何是大势所趋?
以往的 HPC 场景,或者我们在广泛定义中的超算系统,虽然也要有存储系统作为支撑,但其主要解决的是数值分析、模型分析等靠近数学侧的问题。HPC 的目标相对单一,其价值主要是作为底层科研工具支撑社会的发展。
但随着技术的进步和产业需求的发展,超级算力正在与越来越多的现实产业与科技探索相结合。而这就引出了一个关键的问题:HPC 系统需要应对、存储、调用非常复杂的现实数据。
在今年,新冠疫苗成为了社会关注度最高的话题之一,而疫苗研发的背后就有 HPC 对蛋白质分析、病毒模型解析等海量数据的处理能力。这场全球抗疫的关键赛跑,同时也蕴含着算力与数据间的一场竞赛。
HPC 与真实产业、现实场景结合的案例正在不断激增,自动驾驶、油气勘探、精准天气预报、天文观察等等场景,既需要强大的算力,同时也需要计算系统负载和处理差异化明显的不同数据。比如自动驾驶需求处理大量视频与传感数据、交通安全需要处理海量图片数据,而这些数据带来的压力,构成了超算体系进入智能时代的主要挑战和进化方向。随着计算能力本身的提升,加上大数据、AI 等新兴技术与传统 HPC 的结合,超算系统走向数据密集型、多元化处理能力已经成为了确定性需求,这也就是从 HPC 到 HDPA 的演变必然性。
而想要确保这场演变顺利完成,我们可以发现超算系统需要克服三大挑战:
1、首先是数据量的持续指数级增长。
以油气勘探生成 3D 模型为例,模型的精准化将带来十倍的数据膨胀;而一辆自动驾驶汽车测试,每天就将产生 60TB 的必须长期保存数据。应对真正的海量数据,成为了 HDPA 时代的第一课。
2、数据负载类型多元化。
与传统的数据存放类型相比,新周期的数据负载将出现数据多样化统一存放、处理的巨大变革。并且在数据混合负载的基础上,还需要支撑更频繁、便捷的数据调用、数据迁移等操作,给数据体系带来了众多全新压力。
3、数据相关应用复杂化。
目前阶段,AI 技术正在成为算力投放的主要标的,数据应用的主要输出点。但 AI 算法本身复杂多元,个性化极强。这意味着智能时代的超算相关应用将极大复杂化,带给数据存储以额外的挑战。
这些挑战意味着,数字经济时代 HPC 正在由计算密集型走向存储密集型。与此同时可以看到,HPC 已经成为大国科技竞赛中的重要赛道。在 HPC 体系中,数据基础设施又处在发展相对缓慢的一环。2020 年开始,超算中心已经成为“新基建”规划中的主要建设方向,而新基建中的超算中心,显然应该是能够承载多样化数据、海量数据规模,与国计民生紧密相联的计算体系。而这就需要能够支撑 HPDA 演变的数据基础设施升级。
为此,华为推出了 OceanStor Pacific 系列下一代数据湖存储,推动 HPC 向 HPDA 加速演进。
下一代数据湖:华为海量存储 OceanStor Pacific 带来的变革
从 HPC 向 HPDA 演进,首当其中是要提升各产业数据中心、超算系统的数据存储、负载、调用能力,而这就需要数据湖相关产品完成能力上的进化升级。
2011 年,业界开始出现数据湖相关概念,所谓数据湖,是指对自然、原始格式数据进行全量存储的数据基础设施。数据湖可以承载原始数据直接存放的容量挑战,同时支持 AI、可视化、大数据分析等关键应用的演进。
作为 HPC 的数据搭档,数据湖需要在 HPDA 演进中扮演关键角色。在目前阶段,新车的研发时间由 6 年缩短为 2 年,基因测序时长由 13 年缩短为仅仅 1 天,油气勘探的精度由二维提升到三维,这背后都需要数据湖完成数据存放、调用的支撑。
在华为看来,数据湖的升级演进主要需要完成三大目标:
1、超高密设计:数据基础设施的升级,不能以无限制投入空间和投资为代价,所以数据湖产品的高密设计是必由之路。存储产品需要在有限的空间下,完成海量数据的有效存放。
2、面向混合负载:面向产业级的超算体系,一套存储必须支持支持不同业务流程、产业环节的混合负载。以油气勘探为例,过往数据采集、解释、处理每个环节的业务能力对存储的需求都不同,只能搭建多套存储来应付,而这会造成大量迁移成本和风险。数据湖产品必须实现多数据、多业务的混合负载,完成对产业级超算的支撑。
3、多协议快速流转:面向产业超算需求,存储体系需要能够支撑不同数据类型的打通,支持多种数据种类、模块之间的快速流转。
面对这些趋势,华为已经推出了全栈化的下一代数据湖解决方案。去年年底,华为正式推出了海量存储 OceanStor Pacific,能够满足 HPC 向 HPDA 的演进需求。OceanStor Pacific 支持 4096 个节点,能够支持混合负载、融合协议互通,可以说是为高性能计算、大数据乃至视频存储构建的新一代的数据湖存储。
OceanStor Pacific 分为两款硬件。一款是被华为戏称为“超级跑车”的 OceanStor Pacific 9950,其高密设计可以有效解决海量数据的机房空间、能源消耗问题。高密高性能全闪存硬件,可以实现 5U 空间支持 80 个 Half Palm 盘,每 U IOPS 领先业界 60%,每 U 带宽领先业界 30%。而高密大容量硬件 OceanStor Pacific 9550,则被称为“容量怪兽”,5U 空间可以放置 120 块大容量 HDD 盘,实现“1 台顶三台”的容量提升。与此同时,OceanStor Pacific 还在高密空间、便捷维护、散热性能等设计上独树一帜,实现下一代数据湖价值的全面释放。
HDPA 时代,我们将见证的数据聚变
从华为 OceanStor Pacific 带来的数据湖升级价值,我们已经可以看到海量存储升级为 HPDA 时代带来的价值演进。在数据基础设施的升级下,超算体系可以更紧密与物理世界的海量数据融合,带来超算能力参与到产业一线、科研前沿的全新可能。同时,智能化技术也可以在海量数据存储的升级下得到更好支撑,我们知道数据、算法和算力是智能三要素,而数据的便捷、可靠、大容量,是产业级智能升级的开始。
HPDA 时代,超算能力将从算力密集型的数学、机械等领域,向数据密集型的天文、物理、化学、地质,以及千行百业的生产力一线进发。而我们已经可以看到华为 OceanStor Pacific 在很多案例中带来了这种价值改变。
比如在全球著名的 SKA 天文望远镜阵列中,上海天文台就与华为合作,搭建了世界首台 SKA 区域中心原型机核心业务存储系统。在存储能力升级的前提下,探索宇宙身处奥秘的 SKA 得到了更强的数据处理效率,加速了人类打开未知世界大门。
在挪威 Lundin 石油的深海油气勘业务中,华为帮助其建设了匹配新型油藏模拟技术的存储基础架构,实现数据高效存储、分析,并且能够有效提升勘探精度,大幅度油气勘探效率。在华为 OceanStor 海量存储的帮助下,挪威 Lundin 石油实现了冷数据分层存储,存储空间节省了 73%,远程复制容灾效率极大提升。
这些案例仅仅是 HPDA 时代的开端,我们已经可以看到,在自动驾驶、基因测序、电影渲染、精准天气预报、金融反欺诈等领域,海量存储有着广泛的应用前景,并且是数据计算能力提升的必然需求。
在 HPDA 时代,如山似海的数据不再会是产业发展的“叹息墙”,而是行业智能化的跑道与发动机。
评论