Sentieon DNAscope:适配多测序平台数据的快速精准分析流程
DNAscope 模块,是 Sentieon 软件一个准确高效的胚系变异检测模块。其在 GATK 基础上优化了核心算法,在继承 GATK 成熟且完整的 BAM 预处理流程的同时,引入机器学习基因分型模型。相比于 GATK 金标准而言,在降低计算成本的情况下,DNAscope 流程能够大幅度提升 SNP 和 Indel 的检测准确度和稳定性。
DNAscope 将基于单倍型拼接的变异检测与机器学习模型结合,从而实现更高的准确性。DNAscope 在 GATK HaplotypeCaller 类似的逻辑体系结构基础上,对活性区域检测和局部组装等模块进行了优化,尤其是在高复杂度区域,可有效提高灵敏度和鲁棒性。当应用机器学习模型时,DNAscope 会输出带有额外注释信息的候选变异列表,然后将这些被注释的候选变异传递到机器学习模型中进行基因分型,从而提高了变异检测和基因分型的准确性。
DNAscope 方法概述
DNAscope 遵循与 GATK HaplotypeCaller 类似的算法流。首先将可能存在遗传变异的位点确定为活跃区域,然后使用 de Bruijn 图对跨活动区域比对的序列 reads 进行局部组装,并通过 PairHMM 计算 read-haplotype 的可能性,从而输出带有额外注释信息的候选变异列表,并传递到基于机器学习的基因分型模型中进行处理,以确定最终正确的变异基因型。
DNAscope With Illumina
测试平台:Illumina Novaseq
测试数据:precisionFDA truth-v2 challenge 30x HG002 WGS
测试结果:
- 分析效率与 Sentieon DNAseq 一样快;
- 比 BWA-GATK 分析效率快 5~10 倍;
- 与 GATK 相比,错误减少 60% 以上
文章地址:
https://www.biorxiv.org/content/10.1101/2022.05.20.4926v1
DNAscope With MGI
测试平台:MGISEQ-2000 PCR-free.
测试结果:
- 与 Deep Variant 和 GATK 相比具有更卓越的性能.
文章地址:
https://doi.org/10.1101/2019.12.20.885517
DNAscope With Element Bioscience
测试平台:HG002 在 Element Bioscience Aviti 系统上测序(参考系统为 Illmina Novaseq).
测试数据:NIST Genome in a Bottle v4.2.1 真集.
测试结果:
-与 Illumina 相比,DNAscope 在 ElementBio 上取得了相似或更好的结果.
DNAscope with Ultima Genomics
测试平台:Ultima Genomics 最近出的新型高通量、低成本基因测序平台 UG100,可提供 100 美元的全基因组测序。其将晶圆上的开放式流通池设计与大表面积和大部分天然核苷酸相结合,无需可逆终止子即可进行光学终点检测。关键挑战是处理非标准数据格式,并提高对同聚物的检测精度。
测试数据集:
- HG002~HG007(下图展示均值结果)
- 对两组高置信区域进行评估:NIST truth v4.2.1 排除同聚物长度 >=11 bp 的高置信区域,Ultima 高置信区域(不包括额外的串联重复区域)。
测试结果:Sentieon DNAscope 为 Ultima Genomics 提供了新的 pipeline 和 model,可为平台提供最佳的检测精度。
DNAscope LongRead with Pacbio HiFi
测试平台:PacBio HiFi reads 与常见的短读长有很大不同
- 更长的读长可以有效鉴定比对的模糊性;
- 更高的 SNP 检测精度,但是会带来更高的 INDEL 错误率,尤其是在同聚物附近。
测试数据:以 CHOP 的 Kids First 项目为测试基准
测试工具:针对 PacBio HiFi 改进的 DNAscope 模块和 DNAscope 模型
- DNAscope 为 PacBio HiFi redas 进行微调,以提高速度和准确性;
- 为同聚物 INDEL 错误引入新的统计模型;
- 用单倍体和二倍体检测使用单独的 DNAscope 模型。
测试结果:
- DNAscope LongRead 在处理 PacBio 数据时具有优异的效率表现;
- 在低深度测序条件下 DNAscope LongRead 具有较高的精度;
- 16x HG003:F1 ~0.997 for SNP, ~0.968 for INDEL;
- 即使在 10X, PacBio HiFi 在 hard to map 的 CMRG 区域中的表现也远远优于 Illumina;
文章地址:
https://www.biorxiv.org/content/10.1101/2022.06.01.494452v1
DNAscope with GeneMind
测试平台:高通量基因测序平台 GenoLab M
测试数据:NA12878 人源细胞系标准品 DNA 构建的 WGS 和 WES
测试工具:针对 PacBio HiFi 改进的 DNAscope 模块和 DNAscope 模型
- DNAscope 为 PacBio HiFi redas 进行微调,以提高速度和准确性;
- 为同聚物 INDEL 错误引入新的统计模型;
- 用单倍体和二倍体检测使用单独的 DNAscope 模型。
测试结果:
- 针对 WGS,Genolab M+DNAscope 的灵敏度与特异性都显著超越同深度的 NovaSeq+GATK 结果,并且前者 22x 深度的整体准确率能够达到后者 33x 的水平,展现了卓越的成本控制潜力。在基因组的细分区域,也可以看到相似的结论。
- 基于 WES 数据,Genolab M+DNAscope 变异检测的灵敏度(Recall)与 NovaSeq/NextSeq+GATK 检测结果类似,但是变异检测的特异性(Precision)大幅度领先,最终的综合 F-score 也较高,可以在 100x 的深度下达到 NovaSeq/NextSeq 平台更高深度才能达到的准确率。
文章地址:
https://www.researchsquare.com/article/rs-1402182/v1
结论
Sentieon DNAsocpe 分析流程基于机器学习原理,相比于开源 GATK 能够更快更准确的处理 DNA 测序数据,完成变异检测。相比于主要针对 Illumina 平台开发的 GATK 流程,Sentieon DNAscope 可以通过训练不同的算法模型,特异性的适配各种测序平台的数据特性,纠正系统性偏差,提升变异检测效率和准确率。
Sentieon 致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升 NGS 数据处理的效率、精准度和可靠性。随着软件的升级迭代和与更多伙伴的合作,将为业界提供更快速更精准的生信数据处理方案!
评论