写点什么

Sentieon 实战:NGS 肿瘤变异检测流程

作者:INSVAST
  • 2023-08-24
    广东
  • 本文字数:2605 字

    阅读完需:约 9 分钟

 肿瘤基因突变检测是 NGS 的一个重要应用,其分析难点主要在于低频变异的准确性。不同于遗传病检测,肿瘤样本类型多样,测序方法和参数复杂,且缺乏对应各种场景的公共标准真集。再加上常用开源软件经常遇到的准确性低,稳定性差,速度慢等问题。这使得广大诊断公司在评估肿瘤变异检测工具、搭建高效稳定的生信流程上,面临巨大的挑战。

 

作为 NGS 数据二级分析的产品专家,Sentieon 推出了一系列肿瘤分析流程,适用于从组织样本到液态活检等不同场景。其中,TNscope 模块采用 Sentieon 自主设计的算法,搭配机器学习模型,追求最高的灵敏度、准确度以及使用的灵活性,适合临检样本。TNhaplotyper2 模块在结果上匹配 GATK 最新 4.1 版本的 Mutect2,同时提速 10 倍以上,更加适用于科研样本。

 

本期分享近期发表的 3 篇文献,对 TNscope 和 TNhaplotyper2 的性能和准确性进行的详细和客观的评估。最后我们将展示 BMS(百时美施贵宝)使用 Sentieon TNscope 检测 MNV 纠正 TCGA 数据库的案例。

 


TNscope

 

TNscope 模块对于低频变异的检测灵敏度非常高,搭配丰富可调的过滤参数或者机器学习过滤器,可以在临检样本上达到很高的灵敏度和特异性。目前,TNscope 流程已被业内多家诊断公司采用,在室间质评等质控场景下均有优异表现。

 

2020 年 7 月由中山大学和安诺优达联合发表的一篇文章中,作者建立测试数据集,系统的比对了目前流行的包括 TNscope 在内的多款肿瘤变异检测软件,从准确度和速度两方面给出了评测数据。

 


文中作者使用细胞系真集合成不同肿瘤纯度的真集数据,来评估不同的肿瘤变异检测流程。在这里,作者将 HG001 和 HG002 两个标准品原始 reads 按不同稀释比例(10%-60%)混合,合成了 4 套 100x 深度的模拟数据,经过比对,去重,重比对,BQSR 等步骤后,用 6 款变异检测软件进行变异检测,包括 TNscope (v201808.05),TNseq (v201808.05,匹配 3.8 版本 MuTect2 结果),Mutect2 (v4.0.7),NeuSomatic (v0.2.0),VarScan2 (v2.3.9),Strelka2 (v2.8.4)。输出结果经过 RTG Tools 和真集比对计算 Precision 和 Recall。

 

在区分度较大的 5%变异丰度数据集中,我们可以看到, TNscope 和 Mutect2 (和 TNhaplotyper2 结果一致) 在 SNP 和 Indel 检测上都大幅度领先其他软件,尤其是 TNscope 能够在基本杜绝假阳性的基础上达到较高的灵敏度。

 


 除了准确度以外,生信流程的分析速度是临检环境的另一个关注点,尤其是随着样本量的增长,高深度大 panel 的普及,单个样本测序数据量也在飞速增长。提高分析速度,加快产品交付周期变得至关重要。本文比较了不同软件的计算时长:TNscope 的速度遥遥领先,和 Mutect2 相比提速 10 倍左右。

 


综合本文中准确度和速度两方面的指标,Sentieon 的 TNscope 性能超越了其他所有参评的软件模块。我们期待 TNscope 能够助力更多的临检用户,在提升分析准确性的同时大幅提升速度,压缩计算成本。

 

TNhaplotyper2

 

在科研领域,GATK 的 Mutect2 以其优异的性能和 Broad Institute 的强力背书一直被业内作为金标准所接受。进入 GATK4 时代以来,Mutect2 进入了技术尝试期,在子版本更新中,频繁更新算法,大量引入新参数,相邻子版本的变异检测结果差异有时会高达 50%。这样的大幅变化,给用户带来了很大困惑,对 Mutect2 的稳定性也产生怀疑。因此,Sentieon 在匹配了 4.0.2 版本之后也暂停了对不稳定 Mutect2 版本的匹配更新。进入 4.1 版本之后,Mutect2 完成 beta 更新测试,在完善功能模块的同时,版本更新也逐步稳定。所以,Sentieon 应广大用户的要求,发布了匹配目前最新的 4.1.9 版本的 TNhaplotyper2 加速方案。

 

2020 年 7 月份,在 BMC Medical Genomics 上发布了的一篇文章,对 4.1 版本的 Mutect2 进行了性能测试。作者选取了同一个组织样本的新鲜冷冻(Fresh Frozen)样本以及福尔马林固定切片(FFPE)样本进行了 NGS 测序,对结果数据进行肿瘤突变检测。随后以新鲜冷冻样本为金标准,考察不同检测软件流程在处理 FFPE 样本时的准确度表现。

 


文章选用了四个常用的软件,包括了 Mutect2 (v4.1.2),VarScan2 (v2.2.3),Shimmer (v0.2),以及 Strelka2 (版本未汇报)。作者首先使用每个软件检测新鲜冷冻样本 FF 的变异,作为比较的基准,然后检测 FFPE 样本的变异,并和 FF 的结果进行比较。比较的方法是通过调整每个软件最有代表性的肿瘤概率 annotation,例如 Mutect2 用 TLOD,Strelka2 使用 EVS 等,这样在生成 ROC curve 上找到 F1 最大值,作为每个软件的优化结果。

 


从上图中可以看出,Mutect2 和 Strelka2 给出的 FFPE 结果比较接近,说明能更好的区分 FFPE 的 artifact,远远优于 VarScan2 和 Shimmer 的结果。作者在讨论中也着重指出了,不同检测软件的选取对于突变结果的影响甚至超过了样本类型的影响,这也再次证明了软件的性能对于最终结果准确性的巨大影响。

 

值得注意的是,文中使用的 4.1.2 并不是当前的最新版本,Sentieon TNhaplotyper2 所匹配的版本 4.1.9 的准确性会比文中所显示的更加优异。同时,TNhaplotyper2 运行时间仅为 Mutect2 的 1/10,大大缩短了项目周期,节约了计算成本,是科研用户的最佳选择。

 

MNV 肿瘤合并

 

本篇文献来自于药企 BMS(百时美施贵宝),BMS 与 Sentieon 团队合作,利用 Sentieon 的肿瘤 MNV 合并模块对 TCGA 等公共数据库里的结果进行检查,发现了大量 VCF 结果中的 MNV 被错误标记为了 SNV,导致氨基酸翻译错误,继而影响了后续的医学诊断。

 


要想准确的鉴定 MNV 复杂变异,Haplotype 的识别是第一步,这就要求变异检测软件必须进行局部组装(local denovo assembly),利用 reads 的信息拼接出不同的 haplotype,从而确定不同位置突变之间的连锁关系。Sentieon 的 TNscope 以及 TNhaplotyper2 模块都会输出 haplotype 信息。如果两个相近的变异位于同一个 haplotype 上,那么 Sentieon 的 MNV 合并模块将会把它们在 VCF 中合并成一个 MNV。

 


在 TCGA 数据集的重新验证中,文章发现 12,141 个 MNV 被错误注释了,另外有 7 个常见突变基因的 MNV 在 20 个数据集中都没有被正确合并。最常见的一个例子就是 BRAF V600K 变异,在若干公共数据集中都是错误的作为 BFAF V600E 和 BRAF V600M 的 SNV 汇报。类似的例子在 TCGA 数据集中频繁出现,下图是一个数目的汇总。

 


文末总结道,虽然自 2017 年以后的大型项目中的 MNV 都已经被正确的合并了,但是很多中小型学术项目或者商业公司的数据集里,MNV 合并还是经常被遗漏,有待修复。只有正确判断出 MNV 才能判断出正确的蛋白氨基酸变异,作者在此推荐在任何肿瘤流程中都使用类似于 Sentieon MNV 这样的合并工具。

 

Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Sentieon实战:NGS肿瘤变异检测流程_基因测序_INSVAST_InfoQ写作社区