文献解读 -DNAscope: High accuracy small variant calling using machine learning
关键词:基准与方法研究;基因测序;变异检测;
文献简介
标题(英文):DNAscope: High accuracy small variant calling using machine learning
标题(中文):DNAscope:使用机器学习的高精度小变异调用
发表期刊:bioRxiv
作者单位:Sentieon 公司
发表年份:2022
文章地址:https://doi.org/10.1101/2022.05.20.492556
图 1 文献简介
当前的小变异检测技术,尤其是 GATK 的 HaplotypeCaller,在大多数情况下表现优秀。然而,在复杂基因组区域的检测准确性仍有提升空间。随着测序技术在临床应用中的普及,提高这些区域的检测准确性变得越来越重要。传统方法主要依赖专家构建的模型和手动调整的过滤器,而机器学习方法显示出通过学习更复杂的变异特征关系来提高检测准确性的潜力。
测序流程
DNAscope 作为 GATK HaplotypeCaller 的进阶版本,巧妙地融合了成熟的基于单倍型的变异检测方法和先进的机器学习技术,以提升变异检测的准确性。它在保留原有逻辑架构的同时,优化了活跃区域检测和局部组装过程,特别增强了在复杂基因组区域的表现。DNAscope 通过为候选变异添加额外信息注释,并结合机器学习模型进行变异基因型分析,显著提高了整体准确度。此外,DNAscope 还可与贝叶斯基因型分析模型配合使用,使其在非哺乳动物物种的重测序分析中同样发挥优势,体现了其广泛的适用性和卓越的性能。
图 2 DNAscope 方法概述
为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。
图 3 DNAscope 和 DNAseq 的精确召回曲线
图 4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×
为深入评估变异检测工具的性能,研究组利用 GA4GH 的分层区域进行了详细分析。这些区域包括低可映射性、分段重复、自链区域、MHC 以及综合多种复杂因素的"全难度"区域。结果显示,DNAscope 在读数映射困难的区域,如低可映射性、分段重复和自链区域,均明显优于 DNAseq。特别是在 MHC 区域的 SNP 检测和长同聚物区域的 INDEL 检测中,DNAscope 表现更为出色。这些优势共同导致 DNAscope 在复杂基因组区域的整体表现优于 DNAseq。值得注意的是,即使在相对简单的区域,DNAscope 在 INDEL 检测方面仍保持领先,而在 SNP 检测方面与 DNAseq 旗鼓相当。这一全面的分层分析凸显了 DNAscope 在处理各种复杂基因组区域时的强大能力和灵活性。
图 5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估
研究探讨了 DNAscope 贝叶斯模型在非人类和多倍体样本上的表现,特别关注 15x 覆盖度下的性能。结果显示,尽管整体准确性低于其机器学习模型,DNAscope 的贝叶斯模型在 INDEL 检测方面仍优于 DNAseq,而在 SNP 检测方面两者相当。这表明 DNAscope 在处理非标准样本时仍具有一定优势,尤其是在 INDEL 检测方面。
图 6 对 Genome in a Bottle 样本 HG002、HG003 和 HG004 在 15x 测序深度下的评估
在标准化的 AWS 环境中,研究组对 DNAscope 进行了性能测试。结果显示,使用 96+vCPU 处理 30x 全基因组测序样本时,DNAscope 的运行时间不到 1 小时,与 DNAseq 相当,比 BWA/GATK 快 5 倍。测试还表明 DNAscope 具有良好的可扩展性,运行时间与线程数几乎呈线性关系。
图 7 DNAscope 在多个 AWS C6i 实例上的运行时
总结
在这项研究中,研究组证明了 DNAscope 在不同样本和不同覆盖度水平下都能达到比 DNAseq 更高的准确性。使用 GA4GH 分层区域进行的分层分析,能够确认 DNAscope 在大多数分层区域中都具有高准确性,并突显了 DNAscope 在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope 结合了 GATK's HaplotypeCaller 中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。
评论