Sentieon 数据质控 QC 模块介绍
Sentieon 持续为业界提供高性能的 NGS 数据分析软件。在数据处理模块之外,Sentieon 软件套装中还包含了多个用于 BAM 和 VCF 文件的质控模块。相比于常规的 GATK/Picard 工具,Sentieon 的质控工具利用 Sentieon 引擎对于 BAM 文件进行高速读取,可以大幅度提升分析速度,缩短全流程的耗时。
CoverageMetrics 模块
下面我们以常用的 BAM 深度统计工具“CoverageMetrics”为例,做个具体介绍。CoverageMetrics 工具匹配了 GATK 的“DepthOfCoverage”工具,以 BAM 文件为输入,可以统计出某个位置、某个区间、某个基因或者全局的测序深度数据,同时也可以将全局数据通过平均值、中位数、四分位或者超过某个深度阈值的比例等形式进行输出展示。
比如在统计全基因组数据质量时常用的“xx%区域的覆盖深度超过 15x”这样的指标,就可以由这个质控模块给出。如下图所示,与开源软件对比,”CoverageMetrics”模块的提速在 10-80 倍之间。
除了统计深度,我们还提供了统计其他常用质控数据的模块,包括统计双端测序 insert size 的“InsertSizeMetricAlgo”模块;统计 GC content 的”GCBias”模块;统计比对质量的”AignmentStat”模块;统计 panel 捕获效率的”HsMetricAlgo”模块;统计测序质量的”QualDistribution”模块;以及统计 VCF 质控数据的”CollectVCMetrics”模块等。
质控模块
我们目前 Sentieon 软件包中的 QC 质控模块,以及对应的开源工具列举如下:
建议 Sentieon 用户对照这张表格,将目前流程中的质控模块都尽可能替换成 Sentieon 工具,获得最大的分析速度与计算成本的收益。
评论