写点什么

Sentieon 应用教程 | 使用 CNVscope 进行 CNV 检测分析

作者:INSVAST
  • 2024-09-02
    广东
  • 本文字数:1760 字

    阅读完需:约 6 分钟

Sentieon 应用教程 | 使用CNVscope进行CNV检测分析

背景介绍

CNV 检测已成为全基因组分析的常规内容,并显著提升了阳性诊断率。然而,由于实验室水平和所使用软件的差异,目前仍难以全面、准确地覆盖 CNV 的检测与细节分析。尤其在数据分析环节,目前尚无开源软件能够在性能优越的同时,全面解决这一问题。以流行的 CNVnator 为例,这是一款基于 Read Depth(RD)原理的拷贝数变异检测软件,主要用于全基因组数据分析。CNVnator 不仅能在人群中进行拷贝数变异检测和基因分型,还能根据需求鉴定一些非典型 CNV。

总体而言,CNVnator 具备较高的灵敏度、较低的错误发现率、并且其断点检测分辨率较高。然而,作为一款经典软件,CNVnator 在应对现今多平台测序数据和新一代参考基因组等最新数据类型时,已表现出一定的局限性。


1.适用场景

CNVscope 是 Sentieon 推出的一款基于机器学习的全基因组 CNV 分析检测模块。该模块主要用于检测大于 5kb 的拷贝数增加或缺失,方法是通过分析 reads 的深度信息,并结合断点检测等其他特征进行拷贝数判断。


2.环境必备

  • 软件授权:License 须开通 CNV 模块权限

  • 软件下载:https://insvast-download.oss-cn-shanghai.aliyuncs.com/Sentieon/release/sentieon-genomics-202308.03.tar.gz

  • 模型下载:https://insvast-download.oss-cn-shanghai.aliyuncs.com/Sentieon/release/ml_model/SentieonIlluminaWGS2.2.bundle


3.分析流程

运行两个独立的命令来进行 CNV 检测和应用机器学习模型。输入的 BAM 文件应该来自已经完成比对和去重复的流程。

sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \--algo CNVscope --model SentieonIlluminaWGS2.2.bundle/cnv.model TMP_VARIANT_VCF
复制代码


sentieon driver -t NUMBER_THREADS -r REFERENCE --algo CNVModelApply \--model SentieonIlluminaWGS2.2.bundle/cnv.model -v TMP_VARIANT_VCF VARIANT_VCF
复制代码


注意:使用同一个模型进行 CNVscope 和 CNVModelApply 操作很重要,如果使用不同的模型,CNVModelApply 计算会报错。


4.参数说明

以下是输入参数说明:

  • NUMBER_THREADS:计算中将使用的计算机线程数。我们建议该数量不要超过您系统中可用的计算核心数。

  • REFERENCE:参考 FASTA 文件的位置。您应确保该参考与映射阶段使用的参考相同。

  • DEDUPED_BAM:输入 BAM 文件的位置。

  • TMP_VARIANT_VCF:CNVscope 变异调用输出的位置和文件名。这是一个临时文件。

  • VARIANT_VCF:变异调用输出的位置和文件名。将创建一个相应的索引文件。该工具将使用.gz 扩展名输出压缩文件。


5.结果说明

最终输出的 VCF 文件使用 CN 注释来表示 CNVscope 机器学习模型调用的每个区域的拷贝数状态。CNVscope 调用的可能拷贝数状态从 0 到 4,其中 CN=4 表示拷贝数状态等于或大于 4。


附录:研发细节

在 CNVscope 的开发过程中,建立新一代的 CNV 真集用于训练和测试是最为关键的一步。目前常用的 CNV 真值集主要来自 GIAB 的 HG002 项目和千人基因组计划。然而,由于这些真值集依赖于早期的短读长技术,特别是在低复杂度区域的准确性存在一定问题。

随着测序技术的进步,尤其是长读长测序的发展,使得染色体级别的全基因组组装成为可能。例如,HG002 T2T(端到端)联盟最近宣布完成了 HG002 所有 46 条染色体的完整组装,使得样本的结构变异(SV)表征更加准确。同样,Human Pangenome Reference Consortium(人类泛基因组参考联盟)也发布了多个高质量的组装结果,为业内研究者开发最新的分析工具提供了基础。

Sentieon 团队在此次开发中,主要采用了最新的 HG002 T2T 真集以及泛基因组项目中的 15 个样本。这些真集利用了第三代测序数据,大大提升了结构变异检测的准确性。我们从这些真集中提取了超过 5kb 的 DUP(重复)和 DEL(缺失)变异,作为 CNVscope 开发的真集数据。其中,11 个图形基因组样本作为训练集,其余 4 个样本和 T2T 数据作为测试集。所有数据均来自约 30x 深度的全基因组测序。

为展示准确度,我们将 CNVscope 与先前提到的 CNVnator (v0.4.1) 和 Illumina 开发的 DRAGEN CNV (v4.2) 在不同数据集上进行了逐一对比。

图 1 拷贝数重复事件

图 2 拷贝数缺失事件

从结果来看,Sentieon CNVscope 在 WGS 中的表现相较于现有的 CNV 工具,展现出极高的准确性(F1 值)。目前,CNVscope 正处于持续迭代阶段,当前主要聚焦于检测大于 5kb 的胚系 WGS 事件,而小于 5kb 的复制和缺失则由 DNAscope 的结构变异检测模块处理。

未来,CNVscope 还将推出适用于外显子组测序(WES)数据和体细胞 CNV 的分析流程。

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Sentieon 应用教程 | 使用CNVscope进行CNV检测分析_基因数据分析_INSVAST_InfoQ写作社区