YRCloudFile 分布式存储加速基因测序 解锁生命密码
生物信息学(Bioin formatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是 21 世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生信研究主要是围绕 DNA 展开的,主要内容涉及:基因组装、基因预测和功能分析、比较基因组和进化、转录组和表达分析、全基因组关联分析、生物信息学工具开发等。
随着当前科学技术的发展和人们科学认知水平的提高,基因测序技术逐渐拓展,至今已发展到第三代,基因检测技术已经可以通过基因组信息以及相关数据系统,预测罹患多种疾病的可能性。这个过程中,信息技术的推动起到了至关重要的作用。基因测试的分析过程,本质上是大量样本数据进行交换和比对的过程,而样本库的数据量直接影响了基因测序的分析质量。现在阻滞生物技术进一步普及的瓶颈已然不是生物技术本身,而是信息技术的发展。
基因测序是一个典型的巨量数据驱动的行业,数据的收集、存储、分析成为生命科学的中心主题。基因测序产生的巨大数据量,对数据存储提出了严苛的挑战,基因测序行业亟需大规模的高性能存储系统,系统的易用性、数据的安全性以及数据读取的性能显得至关重要,唯有如此才能满足其业务需求,基因测序才能最大程度为人类发挥作用。
基因测序全链路场景数据特征分析
基因测序全链路数据流分为样本采集、样本处理、高通量测序、下机数据拆分、拆分数据生物学分析和可视化报告这几个场景。数据从测序仪下机开始到数据拆分再到拆分数据做生物学分析,不同阶段业务场景所面临的数据规模和存储需求存在差异,具体如下:
测序仪下机数据通常以海量的大文件为主,数据规模在几百兆到几个 GB 之间;随着高通量测序仪的广泛使用,单台测序仪的下机数据可达 10TB 以上;在海量数据规模场景下,对数据存储的扩展性要求很高,在不影响业务的前提下需要迅速扩容;
下机数据往往以图片的形式存放,为了便于后续的生物学分析阶段可读,往往需要采用大量的算力来对数据进行拆分整理,拆分后的数据分为两大部分,以样本拆分数据和解释说明文件两类为主,即以大小混合文件为主的数据形式;
拆分后的数据在基因测序行业是一个半成品的产品,不具有可读性,在后续的流程中,客户通常会选择搭建一套高性能的并行文件存储 +高速的网络环境(IB 或者 roce)以及强大的算力平台来组建生物学分析平台来作为做数据分析的支撑 ;
海量基因数据存储和处理难题
基因测序行业正以前所未有的状态生产、存储与管理着数据信息,海量原始基因数据通过分析和解读才能转化为有价值资源,这使得基因测序行业面临着严峻的存储挑战,数据存储难点主要是以下几点:
存储并发 IO 性能瓶颈
基因测序研究中心需要全力提升数据的处理速度,如果前期分析研究阶段花费太多时间,就会相应地缩短后期临床实践的过程。因此,提升基因数据处理和分析的速度是当前最重要的课题。在加速数据处理的同时,客户 IT 团队需要满足研究团队高效并行访问海量基因数据的需求。强劲的 CPU 算力和高效的算法固然可以保障平台的计算性能,但普通传统的存储系统却难以满足基因测序、基因分析等高频和高效的数据访问和处理需求。
可靠性需求
海量数据管理应用的可靠性需求也是一个不可忽视的需求,基于基因数据分析,设备会持续运行很久的时间,所以长时间大并发的 IO 读写性能和稳定性就显得尤为重要。生物学分析往往会通过对比源生物信息产生大量的结果数据,存储需要对海量的数据妥善保存,且提供高性能的并行文件存储保持上层生物数据分析计算,底层的存储系统在数据的管理上需要更加便捷。
对 GPU 高并发性能的需求
生物学分析涉及大量 GPU 的业务需求存储提供极高的带宽和 IOPS 能力,测序仪下机数据在有限的带宽能力和支持的并发能力难以承载大量的下机数据,拆分数据阶段涉及大量的 GPU 算力,面临高并发的数据访问对海量的混合文件进行读写操作。即在对基因数据进行分析的时候,GPU 算力的加持能大大缩短疾病风险检测或确定治疗方案的时间。海量的数据规模,大量的算力需求,对于支持算力业务发展的存储提出了更高的要求,高吞吐、高 IOPS、低延时的需求很明确。
某客户是一家专注于分子诊断项目及健康管理的高新技术企业,致力于为医疗机构、行业合作伙伴及大众提供全方位、个体化、精准化的基因检测服务和健康管理解决方案。安全存储大规模基因数据,妥善管理海量数据,高效进行基因数据分析、处理和计算,快速调用有效数据进行应用分析等成为该客户最为关注及重视的问题。
焱融海量数据高性能存储方案
为生信基因测序加速
焱融科技作为一家数据存储服务的高新技术企业,采用分布式存储架构为用户及应用提供高效的数据存储和管理服务,为该客户提供了在 AI+大数据时代下生物医学领域在海量数据场景下的高性能存储方案。
方案拓扑图
海量数据支持
YRCloudFile 提供标准的文件接口和访问协议及私有客户端,私有客户端采用独特的 IO 流程优化和并发 IO 处理,通过更简化的 IO 流程,更高效的通信方式来应对高并发的 IO 读写。在大规模高并发业务场景下,能提供海量数据并发访问的存储读写需求。
YRCloudFile 分布式文件系统采用分布式架构,数据及元数据节点可按需扩展,达到容量与性能均线性增长的能力。满足生信行业庞大且复杂的所有业务发展带来的数据扩展问题。常规业务情况下,几台乃至十几台存储即可满足一个大规模项目的存储要求,几百 TB 到几十 PB 乃至是数百 PB 的数据存储量。
极致性能
YRCloudFile 可兼容高性能网络,能够支持最高 400Gb 的 IB 网络,提供超高的带宽能力;集群内单存储节点性能可达 200 万 IOPS 性能,40GB/s 带宽。
国内首家支持 NVIDIA GPUDirect Storage(GDS)功能,实现以直接内存的存取方式将数据传输至 GPU,显著降低 I/O 延迟,提升数据带宽,充分释放 GPU 算力,将性能发挥到极致。
兼容不同的网络环境,支持不同的网络平面,特别是对 IB 网络和以太 roce 的支持,有效地满足了海量的非结构化混合文件数据读写性能,提高 GPU 读写拆分数据的效率。
在海量小文件场景下, YRCloudFile 分布式文件存储依托于分布式元数据横向扩展架构、虚拟目录、静态子树和目录 Hash 等技术,在 0~100 亿级别的海量文件背景下,文件操作性能以及文件的读写性能平稳。
管理便捷
焱融科技开发的 智能数据加载 Dataload、冷热数据分层等功能可实现冷热数据自动分离,区别于传统备份系统,YRCloudFile 实现无人值守,数据分流采用 YRCloudFile 自主管理,对业务透明,随时可访问。
YRCloudFile 采用“软件定义”架构,将以往存储系统依赖硬件实现的功能通过软件实现,将存储系统与存储硬件解耦,实现存储硬件通用性,硬件不再使用定制化,而是采用市场主流的通用 X86 服务器亦或是 ARM 国产化硬件,让客户具有硬件选择权,硬件维护简单。
通过焱融高性能分布式文件存储系统的高灵活和高可扩展性满足了基因测序行业客户不断增长的业务需求,实现了计算资源和数据资源的完全透明无缝扩展,提供高效的存储效率和并行能力,为基因测序平台提供了高效、稳定、可靠的支撑,让客户更多地关注业务能力,发挥数据的价值,让其更好地通过基因测序服务社会,以技术驱动“精准医疗”的发展。
版权声明: 本文为 InfoQ 作者【焱融科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/cd4318dcb72348c966bcc27c1】。文章转载请联系作者。
评论