文献解读 -Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi

关键词:长读长测序;准确度;DNAscope LongRead;
引言
第三代测序技术凭借其超长读长特性在基因组学研究中发挥重要作用,能够更好地解析复杂区域、结构变异和重复序列,显著提高了基因组组装和变异检测的准确性,但面临着准确性和计算效率的挑战。因此,本文将介绍 Sentieon 开发的 DNAscope LongRead 。该工具不仅继承了 Sentieon 一贯的高性能特点,还专门针对长读长数据的特性进行了优化,能够准确处理 PacBio HiFi 等第三代测序数据。接下来让我们一起了解一下 DNAscope LongRead 所展现出的性能优势吧!
文献介绍
标题(英文):Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
标题(中文):Sentieon DNAscope LongRead – 用于 PacBio HiFi 读取的种系变异识别的高度准确、快速且高效的管道
发表期刊:bioRxiv
作者单位:Sentieon 和 Pacbio
发表年份:2022
文章地址:https://doi.org/10.1101/2022.06.01.494452

图 1 文献介绍
短读长技术在过去二十年广泛应用,但在解析二倍体基因组的单倍型信息、高度重复序列以及临床相关基因方面存在固有局限。PacBio 开发的 HiFi 测序技术通过 CCS 测序实现了长读长与高精度的结合,然而早期的长读长数据分析工具在变异检测准确性和计算效率方面仍需优化。Sentieon 团队对获奖的变异检测工具 DNAscope 进行升级,开发了 DNAscope LongRead 流程。
DNAscope 通过改进局部组装算法和引入机器学习模型,显著提升了变异基因分型和过滤的准确性。为更好地适应 PacBio HiFi 数据特点,对 DNAscope 进行了优化:扩大了活性区域检测范围,并针对单倍体、二倍体和未分相区域开发了特定处理模型。试验数据表明,优化措施使变异检测的召回率和精确度获得显著提升,尤其在复杂基因组区域的处理方面展现出独特优势。
测序流程
Sentieon 提供一站式定制化的基因组数据分析服务,涵盖从比对到变异检测全流程;Sentieon 高度优化的算法和企业级的软件工程,能够显著提升 NGS 数据处理的效率、准确性和可靠性。Sentieon 与开源软件结果一致性达到 99%以上的同时,在速度和精准度方面都优于开源,能更快更精确地将变异检测结果交付到您的手上。
PacBio HiFi reads 的碱基准确率超过 99.8%,主要错误来源于同聚物上下文中的插入缺失。针对这一特点,DNAscope 设计了三个处理流程:首先未分相 reads 的重复模型校准与 SNV 检测;其次进行变异分相及分相区域重复模型校准;最后在分相区域的单倍体变异调用,以及在未分相区域进行二倍体检测。

图 2 DNAscope LongRead 流程概述 该流程从比对的 PacBio HiFi 测序读段中检测胚系变异
流程可分为三个阶段:第一轮变异检测、变异分型、以及第二轮更精确的基因组分型区域变异检测(分别处理每个单倍体亲本基因组)。在第一轮和第二轮变异检测前,统计模型会根据样本的重复序列内容进行校准,以提高变异检测准确性和流程稳健性。核心变异检测流程在分型或未分型的基因组区域运行 DNAscope,并使用 DNAModelApply 执行基于模型的变异基因分型。使用 Python 脚本进行 VCF 文件处理。
在约 35x 覆盖度的 HG002、HG003 和 HG004 样本测试中,DNAscope LongRead 展现出了卓越的性能,在 GIAB v4.2.1 高置信度区域内平均检测到 3,859,105 个变异,错误数为 9,130 个,较 PacBio HiFi 数据流程减少 15%。特别是在 MHC 和难映射区域的错误分别降低了 55%和 27%,平均 F1 分数达到 0.9988,优于 pFDA 获胜流程的 0.9986。充分证明了 DNAscope LongRead 在固定测序读段集条件下具有更高的变异检测准确率。
为验证 DNAscope LongRead 对新化学试剂的适应性,研究团队使用 PacBio 2.2 化学试剂进行测试,41x 覆盖度样本数据表明,DNAscope LongRead 检测到 9,231 个错误,总体 F1 分数为 0.9988,与 2.0 版化学试剂结果(9,130 个错误数,F1 分数为 0.9988 )相当。证明 DNAscope LongRead 对上游文库制备和测序变化具有良好的适应性。

图 3 PacBio HiFi 样本在 PrecisionFDA 真实性挑战 V2 和新化学试剂中的变异检测准确性
(A) 相比 PrecisionFDA 真实性挑战 V2 获胜提交结果,DNAscope LongRead 流程显著减少了总错误数。在 MHC 和难以映射的分层中,错误率尤其降低。
(B) DNAscope LongRead 流程对文库制备和测序化学试剂的变化具有稳健性。使用新测序化学试剂的 chemV2.2 样本与模型训练中使用的 HG002 样本具有相当的准确性。
通过对 35x HG003 样本进行降采样(从 5x 到 35x,间隔 5x)研究发现,在 20x-35x 覆盖度范围内,非同聚物区域的 SNV 和 indel 检测表现稳定,F1 分数分别仅下降 0.00074 和 0.0049。总体 indel 检测受覆盖度影响较大,F1 分数在相同覆盖度范围内下降了 0.013。

图 4 读段覆盖度对 DNAscope LongRead 流程准确性的影响 展示了序列降采样实验中 SNV(x)、indel(点)和非长同聚物区域 indel(方块)的 F1 得分。从 35x 到 20x 覆盖度每步降低 5x,在 10x 到 20x 之间添加了额外样本。在较低覆盖度下,SNV 准确性比 indel 准确性更稳定。数据以两种视图显示,以突出较高覆盖度下的准确性提升:(A)F1 得分和(B)phred 标度 F1 得分。
为评估 DNAscope LongRead 在 GIAB 基准区域之外的性能,研究团队使用 HG002 样本与 CMRG 基准数据集进行比对。结果显示 DNAscope LongRead 产生了 846 个总错误。在 KMT2C 区域表现尤其出色,仅产生 62 个假阳性,优于 DeepVariant-HiFi 产生的 277 个假阳性。证明 DNAscope LongRead 不仅能扩展到 GIAB v4.2.1 基准区域之外,还能在独立创建的真实数据集上表现良好。

图 5 在具有医学相关性的挑战性基因基准测试中对 PrecisionFDA Truth V2 样本的准确性评估 使用具有医学相关性的挑战性基因基准(CMRG)评估 DNAscope LongRead 流程的准确性。CRMG 基准使用基于组装的方法扩展到 v4.2.1 GIAB 基准区域之外的更具挑战性区域。(A)错误数量。(B)精确度和召回率。
从计算资源利用效率来看,DNAscope LongRead 在 30x 样本处理中需要 120.3 核心小时,总运行时间 1.71-4.52 小时之间。内存使用在 8.39-14.8 GB 范围内,与样本覆盖度呈正相关。,展现出 DNAscope LongRead 良好的性价比和资源利用率。

图 6 DNAscope LongRead 流程的运行时间和最大内存使用
(A) 在 32 核 Intel® Xeon®服务器上各流程阶段的运行时间。阶段按时间顺序排列。第一轮变异检测阶段为深蓝色,变异分型阶段为红色,第二轮变异检测阶段为绿色。"其他运行时间"为简短的 VCF 处理命令。
(B) 各样本的最大内存使用。高覆盖度样本在变异检测时通常需要更多内存。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
总结
DNAscope LongRead 在处理 PacBio HiFi 数据的胚系变异检测中实现了在精准性方面、鲁棒性方面,效能方面三大突破,Sentieon 未来将进一步优化同聚物区域检测,并探索更广泛的应用场景。
评论