Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现
使用 TNscope®中机器学习模型
TNscope®中机器学习模型的目标
TNscope®允许您使用机器学习模型进行变异过滤,以提高结果的准确性。机器学习模型的方法描述在https://www.biorxiv.org/content/early/2018/01/19/250647中,并在 TNscope®中使用一系列灵敏设置来检测更多的候选变异,然后通过基于模型的变异过滤。Sentieon®为您提供基于 GIAB 多个样本真集训练的机器学习模型https://github.com/genome-in-a-bottle 。
在 TNscope®中使用机器学习模型
需要运行三个单独的命令来进行高灵敏设置调用变异,应用机器学习模型,并使用 BCFtools 设置模型阈值。输入的 BAM 文件应该进行过比对、去重复和 BQSR 处理。
以下是命令所需的输入参数:
NUMBER_THREADS:计算中将使用的线程数。建议不要超过系统中可用的计算核心数。
REFERENCE:参考基因组 FASTA 文件。请确保参考基因组文件与比对阶段使用的文件相同。
TUMOR_DEDUPED_BAM:经过去重处理的肿瘤样本的 BAM 文件。
TUMOR_RECAL_DATA.TABLE:肿瘤样本的 BQSR 结果文件。
NORMAL_DEDUPED_BAM:经过去重处理的正常样本的 BAM 文件。
NORMAL_RECAL_DATA.TABLE:正常样本的 BQSR 结果文件。
TUMOR:BAM 文件中肿瘤样本的 SM 标签名称。
NORMAL:BAM 文件中正常样本的 SM 标签名称。
TMP_VARIANT_VCF:TNscope®变异调用输出的临时文件位置和文件名。
VARIANT_VCF:变异调用输出的位置和文件名。将创建相应的索引文件。软件将输出一个压缩的 gz 文件。
FILTER_VARIANT_VCF:设置最终阈值后的变异调用输出文件名。由于使用了-O z 选项,输出文件将是一个 bgzip 压缩的 vcf.gz 文件。
ML_MODEL:机器学习模型文件。
$ML_THRESHOLD:根据模型确定变异为真的概率的阈值。建议使用 0.81。
Sentieon 软件介绍
Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
评论