文献解读 -Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi
关键词:长读长测序;基因测序;变异检测;
文献简介
标题(英文):Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
标题(中文):Sentieon DNAscope LongRead - 从 PacBio HiFi 读数中进行胚系变异调用的高精度、快速而高效的管道
发表期刊:bioRxiv
作者单位:Sentieon 公司和 Pacific Biosciences 公司
发表年份:2022
文章地址:https://doi.org/10.1101/2022.06.01.494452
图 1 文献简介
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。DNAscope LongRead 的计算效率很高,在 16 核机器上调用 30 × HiFi 样本的变异只需不到 4 个小时(120 个虚拟核时),而且准确率很高,在最新的 GIAB 基准数据集上,以 30 ×覆盖率测序的 HiFi 样本的准确率和召回率超过 99.83%,而且对基准数据集和上游文库制备及测序的变化也很稳健。
测序流程
研究者以 Sentieon DNAscope 工具为基础,针对 PacBio® HiFi reads 开发了 Sentieon LongRead 分析工具。
图 2 Sentieon 的作用
图 3 DNAscope LongRead 流程图
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
文献讨论
图 4 文献讨论
DNAscope LongRead 是一个高度准确、高效、稳健且可扩展的管道,用于从 PacBio HiFi 读取中进行胚系变异检测。与 Precision FDA Truth Challenge V2 获胜的变异检测管道相比,DNAscope LongRead 管道错误减少了 15%。
通过对 35x 样本进行连续下采样,发现 SNV 和 indel 变异检测的准确性在较低覆盖度下仍然表现良好,从 35x 降至 20x 时,F1 分数分别仅下降 0.00074 和 0.013。变异检测对上游数据处理的变化具有鲁棒性,并在使用新的基准数据集评估具有挑战性的基因组区域时保持高准确性。
整个管道的实现非常高效,对于 30x 样本,从输入到最终变异数据集的分析仅需 120.3 核心小时,峰值内存使用为 13.44 GB。
结论
综上所述,研究表明,DNAscope LongRead 管道可从 PacBio® HiFi reads 中提供可扩展的高效种系变异调用。
评论