Sentieon | 应用教程: 使用 DNAscope 对 HiFi 长读长数据进行胚系变异检测分析
介绍
本文描述了使用 Sentieon® DNAscope 进行 PacBio® HiFi 数据胚系突变检测。PacBio® HiFi 技术产⽣质量值超过 Q20 的高质量长读段,平均长度在 10-25kb 之间。准确的长读段可以对短读段和高噪音长读段方法无法检测的基因组重复区域进行精准的变异检测。
Sentieon® DNAscope 能利用 PacBio® HiFi 数据高质量、长读长的优势,使用经过校准的机器学习模型进行快速、精准的变异检测。针对 HiFi 数据的 DNAscope 流程输入比对后的 HiFi 数据,并输出 VCF 格式变异检测结果。
本流程的使用需要使用 202010.03 或更新版本的 Sentieon 软件和可从 Sentieon®获取的相关脚本。本流程需要 Python 版本>2.7 或>3.3,bcftools 版本为 1.10 及以上。Python
,bcftools
,bedtools
需要在用户环境变量中。
输⼊数据要求
比对后数据
本流程的输入使用pbmm2
或minimap2
比对后的 PacBio® HiFi 数据。使⽤pbmm2
比对推荐使用-c 0 -y 70 --preset HIFI
参数。这些设置关闭了pbmm2
传统的比对⼀致性过滤,转而使用间隔压缩序列过滤并使用 PacBio®推荐的 HiFi 数据比对设置。使用minimap2
比对推荐使用-x map-hifi
参数。该设置为 minimap2 针对 HiFi 数据的推荐设置。
参考基因组
DNAscope 将根据高质量参考基因组对样本进行变异检测。除了参考基因组外,由samtools
生成的基因组索引文件(.fai)也是必须的。我们建议使用没有补丁序列的参考基因组。
PacBio® HiFi 数据 Sentieon® DNAscope 流程
流程概览
本流程会进行两轮变异调用,然后将两轮结果合并到⼀起生成最终的结果。具体步骤如下:
本流程在第⼀轮调用中会检测样本中的变异位点;
利⽤第⼀轮检出的 SNV 和长读长信息进行定相;
第⼆轮调用:
在定相区,从每个单倍型中分别进行变异调用;
在非定相区,使用更准确的⼆倍体模型进行变异调用;
将第⼀轮和第⼆轮的变异位点合并生成最终结果;
通过提供的 MHC bed⽂件,对 MHC 区域进行特殊处理,进⼀步提高变异检测准确性;本流程所需的 DNAscope 机器学习模型可从 https://github.com/Sentieon/sentieon-models 获取。
运行流程
通过⼀个包含多个单⼀Sentieon 命令的脚本即可运行 HiFi 数据 DNAscope 流程。⼀行命令即可完成变异检测并运用机器学习模型。HiFi 数据比对文件可以是用 pbmm2 比对和建立索引后的 bam 或 cram⽂件。
HiFi 数据 Sentieon® DNAscope 流程必选参数如下:-r REFERENCE
:参考基因组 fasta 文件路径。请确保使用的参考基因组⽂件与比对阶段使用的⼀致。-i HIFI_BAM
:比对后的 BAM 文件路径。-m MODEL
:DNAscope HiFi 模型⽂件。HiFi 数据 Sentieon® DNAscope 流程可选参数如下:-d dbSNP
:dbSNP 数据库 VCF 文件路径。仅需⼀个文件。该文件将用于变异检测结果中位点 refSNP ID 的注释。-B MHC_INTERVAL
:MHC 区间文件,BED 格式。该文件将用于 MHC 区域变异检测的特殊处理。-b INTERVAL
:区间文件,BED 格式。该文件将限制变异检测在该区间。-t NUMBER_THREADS
:并行线程数。该参数可选,默认使用计算机所有线程。-h
:打印帮助信息。HiFi 数据 Sentieon® DNAscope 流程位置参数如下:VARIANT_VCF
:变异检测输出文件名。本流程会输出 bgzip 压缩的 VCF 文件及其索引文件。
流程输出文件
本流程会输出⼀个以 VCF4.2 格式标准的 bgzip 压缩文件(.vcf.gz)及其索引文件(.vcf.gz.tbi)。
其他注意事项
目前,该流程仅推荐应用于⼆倍体样本。对于包含⼆倍体和单倍体的样本,应使⽤-b INTERVAL
参数将变异检测限定到⼆倍体染⾊体。
Sentieon 软件介绍
Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
评论