Sentieon 文献解读 - 使用 Sentieon ctDNA 分析管道高精度、高效地处理 UMI 数据集

关键词:UMI;ctDNA;Sentieon;
引言
为什么有些癌症患者在经过治疗后看似康复了,但后期会症状复发?如何才能更早地发现癌症的蛛丝马迹?传统的组织活检由于创伤大、采样位置单一等限制,难以满足临床上对肿瘤动态监测的需求。而液体活检可以通过简单的抽血检测,从血液中分离出循环肿瘤 DNA(ctDNA),及时掌握患者体内肿瘤的变化情况。然而,由于 ctDNA 含量极其微少,如何准确检测这些微小的遗传信息变得尤为关键。因此,将介绍一下 Sentieon 的解决方案---ctDNA 流程;
文献介绍
标题(英文):Processing UMI Datasets at High Accuracy and Efficiency with the Sentieon ctDNA Analysis Pipeline
标题(中文):使用 Sentieon ctDNA 分析管道高精度、高效地处理 UMI 数据集
发表期刊:bioRxiv
作者单位:Sentieon
发表年份:2022
文章地址:https://doi.org/10.1101/2022.06.03.494742

图 1 文献介绍
液体活检通过检测循环肿瘤 DNA(ctDNA)中的低等位基因频率(AF)变异,在肿瘤监测(如微小残留病 MRD)中具有重要的临床价值。然而,ctDNA 样本量有限,且低 AF 变异易受 PCR 扩增和测序错误干扰。使得现有 UMI(唯一分子标识符)分析流程在准确性和效率上存在着优化的空间。
为此,Sentieon 开发了一套完整的 ctDNA 分析流程,通过整合优化的比对算法(Sentieon BWA)、高效的共识序列生成工具(Sentieon Consensus)、基于单倍型的灵敏变异检测模块(TNscope)以及可定制的过滤策略(TNscope-filter),显著提升了检测的灵敏度和特异性。
测序流程
Sentieon 核心优势在于高效的数据处理能力。在原始测序数据分析方面,不仅能准确完成从测序读段到变异检测的全流程分析,还能通过优化算法显著提升运行效率。特别是在处理 WGS 和 WES 等大规模测序数据时,展现出了卓越的性能表现。Sentieon 能够满足不同规模的研究需求,助您更快速、准确地获取分析结果,快来试用一下吧!
Sentieon 在模拟数据集测试结果中错误率均显著低于 Fgbio
研究团队通过模拟数据来评估 Sentieon Consensus 和 Fgbio 的性能。从人类参考基因组随机生成 500 万个 DNA 片段,经过 UMI 标记、PCR 扩增和测序过程,最终获得 1500 万个 reads。
研究将输入 read 序列分为碱基全相同、部分相同和全不同三类进行分析。分析显示在所有类别中,Sentieon 的错误率要比 Fgbio 低 2 个数量级。特别是在处理"全不同"类别时,Sentieon 都保持在 5%以下的错误率,而 Fgbio 未能给出正确结果。同时,Sentieon 在碱基质量评分方面表现优异,为下游变异检测提供了可靠的质量评估。

图 2 (A) Sentieon UMI 一致性工具和 Fgbio 的错误率。对于完全不一致的输入读数,Fgbio 无法调用一致性碱基(而是在输出中产生'N'碱基)。(B) Sentieon 一致性工具报告的一致性碱基质量与相对于真实值的一致性碱基错误率强相关。
在健康个体 DNA 体外混合实验中验证 Sentieon ctDNA 的性能
研究设计了体外混合实验来评估 Sentieon ctDNA 分析流程的性能。将一个个体的 DNA 以 0.2%和 0.3%的滴定率与另一个个体的 DNA 混合,构建三个文库并使用定制面板进行探针杂交,覆盖已知的真实 SNP 位点。分别在 Illumina 和 MGI 平台上测序,并将数据降采样至 30,000x 深度。

图 3 通过两个健康个体 DNA 滴定制备的体外混合样本
数据集模拟了微小残留病变(MRD)检测场景,预期突变频率低至 0.1%。将 Sentieon ctDNA 流程与"Fgbio + Vardict"流程进行对比分析。结果显示,Sentieon 流程在总体 F-Score 和召回率方面都略优于 Fgbio + Vardict,证明 Sentieon 在低频变异检测方面的优越性。实验中使用不同的 DNA 类型和测序平台,也验证了 Sentieon ctDNA 在各种实验条件下的稳定表现。

图 4 Sentieon ctDNA 流程和替代流程在 MRD 数据集上的准确性
在 SEQC2 ctDNA 数据集中验证 Sentieon ctDNA 的性能
研究采用 SEQC2 项目的标准数据集来评估 Sentieon ctDNA 流程性能。该项目通过混合已知突变的细胞系 DNA,制备了突变频率约 1%的 Lbx-high 和突变频率约 0.2%的 Lbx-low 两个参考样本
为评估 UMI 分析效果,研究团队选取了八个 Lbx-low 数据集,将 Sentieon 的分析结果与表现最佳的 BRP 检测进行了对比。结果显示,在相同测序深度下,Sentieon 在召回率和 F1 分数上均优于 BRP 分析流程,验证了其在低频变异检测中的优势。

图 5 (A) 8 个 Lbx-low 数据集的精确度 vs 召回率;(B) 两个流程的 F1 分数分布。
Sentieon 在临床 MRD 检测中展现出优异的 UMI 共识分析性能
临床微残留病变(MRD)验证分析主要针对 10 个临床 MRD 样本开展,比较了 Genecast MinerVa、Sentieon 和 Fgbio 三种 UMI 共识生成工具的性能。样本经 Sentieon BWA 比对后,使用以上三种工具进行 UMI 共识分析。MinerVa 采用编辑距离聚类和考虑碱基质量的统计模型生成共识 reads,并通过变异模式分析来提高灵敏度和速度。
评估结果显示,在阳性率方面 Genecast MinerVa 表现最佳,而通过交叉患者分析评估的 1998 个"阴性"变异中显示三种方法特异性均超过 99.5%。值得注意的是,Sentieon 在未充分利用共识碱基质量信息的情况下仍展现出良好性能,这表明其仍有优化空间。研究证实了 UMI 共识生成方法适用于临床 MRD 检测场景。

图 6 比较三种工具生成的去重复后 BAM 文件中的 ctDNA 变异检测
上面板:灰条的高度代表从肿瘤组织测序获得的预定变异集的大小。在每个灰条内,绿/蓝/橙色条代表在同一样本中检测到的 ctDNA 变异数量。
下面板:所有检测到的 ctDNA 变异的 VAF 都低于 1%,大多数低于 0.25%。
Sentieon 的运算速度优势:UMI 数据处理效率提升 20 倍
为评估 Sentieon 工具性能,研究团队开展了两组对照实验。
在 32 逻辑核心 Intel Xeon 平台上,使用 0.5% AF 数据集比较 UMI 数据处理效率。结果显示 Sentieon Consensus 为 4,317 秒,较 Fgbio 的 82,679 秒,运行时间要快约 20 倍。
在 ctDNA 完整分析流程测试中使用体外混合数据,尽管 Fgbio + Vardict 采用了 10 线程并行处理,Sentieon 仍块约 10 倍的速度优势。展示了 Sentieon 在高通量测序数据分析中的高效性能。

图 7 A. 一致性生成步骤的运行时间比较。Sentieon UMI 一致性工具比 Fgbio 快 20 倍。
B. 包括比对、一致性生成、变异检测和过滤在内的整个 ctDNA 处理流程的运行时间比较。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
总结
本研究介绍了 Sentieon ctDNA 分析流程,并使用模拟和实际数据集对其准确性进行了基准测试。
在大多数测试数据集中,与其他分析流程相比,Sentieon ctDNA 流程表现出更优的召回率和精确度,卓越的性能主要归功于共识序列生成工具中使用的复杂统计模型,以及 Sentieon TNscope 提供的高精度体细胞变异检测。除了更高的准确性外,Sentieon ctDNA 流程的运行速度也远快于其他流程,能够及时处理大面板的高深度测序数据。
评论