生信领域|焱融存储为极智基因打造高性能生物医学平台
由于现代生物数据获得方法的爆发性发展,已经很难完全依赖人工和简单的计算机技术处理海量的生物学数据,生物信息学由此应运而生。在高性能计算的加持下,生物学突飞猛进,为人类健康福祉贡献力量。
高性能计算(HPC) 是推动基因测序进步的重要驱动力,与其相匹配的则必须具备高性能的存储才能够满足其业务需求发展,让基因测序发挥最大的作用。
2023 年初,焱融科技参与了极智基因生物医学平台基础设施建设,为其提供高性能高可靠的存储底座,总建设规模超过 PB 级容量,提供百 GBps 带宽性能,支撑大规模高性能计算中数据并发访问需求,为生物医药检测、基因测序及生物信息学分析、肿瘤防治、遗传病研究、药物研发工作提供数据存储和管理服务,助力极智基因提升研究效率。
青岛极智医学检验实验室
极智生物秉承“以持续的创新和极致的服务,成为全球领先的基因科技企业”的愿景,深耕医学、农学两大领域,立足医学科研、临床转化、医疗共建三大产线,覆盖基因测序、生物信息分析、生物云分析平台和转化医学等方向,通过基因检测、生物信息分析、智能数据库等技术手段,为科研机构、企事业单位、医疗机构等提供研究科技服务和综合解决方案。
极智基因生物医学平台主要从事高通量基因检测、医学研究服务、医学临床转化等业务方向,帮助精准医学进步,促进生命科学发展。
生物医学平台核心业务数据特征分析
在基因数据处理过程中,存储需适配业务不同时期的数据特征,这样可以有效地缩短计算时间,从而在整体投入成本和效果上带来巨大的收益。
以医学平台核心业务线基因测序为例,基因测序全链路数据流分为样本采集、样本处理、高通量测序、下机数据拆分、拆分数据生物学分析和可视化报告等:
高通量测序环节:平均单台测序仪每天产生数据量约 10TB 以上,包含千万级文件量,数据以图片为主,单文件达到 GB 级别,属于非结构化数据类型。
下机数据拆分环节:数据下机后,经过质检等环节并拆分数据,增加数据描述文件,描述文件以小文件为主,存储需具备高 IO 能力,才能满足海量小文件和高并发要求,此场景为密集 IO 应用阶段。
拆分数据生物学分析环节:分析阶段,中间过程数据约生成 5 倍样本数据量,依托存储高性能读写,将数据快速存储,并且支持计算层高性能计算集群的高并发访问,分析数据。
以极智基因生物医学平台的测序平台为例,其业务在不同数据视角下具有独特的特性需求,存储需具备百万级的 IOPS 能力,才能够有效支撑数千个 CPU 核心并发高性能计算。
焱融科技认为,在其平台建设中,存储系统的核心能力在于处理海量混合文件及提升性能这两个方面实现突破:
存储的扩展能力
首先,存储容量规模需支持海量数据的扩展能力,以满足快速增长的基因数据量,在数据量快速增加的同时,元数据量也呈现高增长,元数据也需具备高扩展能力,避免出现容量瓶颈。
存储的并发能力
基因分析是一个依托大规模 HPC 运算的模式,存储需适配大规模的 HPC 并发访问,同步读写数据的能力,分析过程会读写海量小文件,所以高并发压力下,存储需提供高 IOPS 能力,才能与 HPC 算力集群适配,避免计算资源的浪费。
存储可靠性及成本
作为数据的载体,存储的可靠性尤为重要,既要保障数据本身的完整性又要保证业务连续性,让每个过程都顺利执行,业务才能有效开展。同时鉴于海量的数据,建设成本与存储容错之间需要平衡,降低 TCO。
焱融存储打造高性能生物医学平台
极智基因生物医学平台在本项目建设中采用焱融高性能分布式文件存储系统 ,基于 YRCloudFile 分布式存储架构,数据及元数据节点可按需扩展,达到容量与性能均线性增长的能力,满足基因测序等核心业务发展带来的数据扩展问题,有效解决基因测序应用中,对海量大文件存储场景高聚合带宽、小文件存储场景高 IOPS 的存储需求。
计算端提供标准的文件接口和访问协议及私有客户端,私有客户端采用独特的 IO 流程优化和并发 IO 处理,通过更简化的 IO 流程,更高效的通信方式来应对高并发的 IO 读写。在大规模高并发业务场景下,能提供海量数据并发访问的存储读写需求。支撑的业务系统包括:高通量测序、下机数据拆分、拆分数据生物学分析等。
本次建设的 YRCloudFile 存储集群采用的 EC 容错技术,在保证可靠性的同时,最大化提升存储有效容量,控制建设成本,实现高可靠,低成本的目标。
在业务数据全生命周期规划方案中,预留了归档接口,满足行业法律法规对基因数据归档的要求,可直接进行归档管理。
综上,在 IO 逻辑、数据结构、性能要求等层面,焱融科技完美适配了各项业务要求,帮助极智基因完成了生物医学分析业务的目标,整体业务效率提升数倍。方案优势简述如下:
高性能,高并发
本项目支持数千 CPU 核心计算集群访问,提供百 GBps 带宽。
大容量、高可靠、低成本
本项目 YRCloudFile 建设容量达 PB 级,支持百亿级规模文件数量,采用 EC 容错技术,提升可用容量。
高扩展
采用分布式架构,支持横向扩展能力,数据容量及元数据容量均可横向扩展,无容量瓶颈。
后期运维简单
提供文件接口,无需改造成本,同时提供图形运维界面,功能策略设定丰富。
未来功能提升
焱融高性能分布式文件存储系统拥有智能分层及 GDS 功能,对于业务发展过程中涉及冷热数据管理以及用户在未来计算端使用 GPU 计算提供了基础,满足业务发展潜在需求。
信息技术赋能生物信息为产业研究打开新的通路。焱融科技凭借在 AI 存储领域的先发优势,推进存储在 AI+多个领域的技术创新,在生物信息分析场景拥有成熟的项目经验,以业务需求为导向,深入契合业务数据的独特特征,致力于将存储和计算这两个关键环节紧密配合,充分发挥计算的全部性能,避免因存储瓶颈而导致的计算资源浪费。
未来,焱融科技将持续为生物信息领域提供高效、灵活且具有前瞻性的产品方案,为生物医学研究领域提供有效的性能保证和技术支持。
评论