Sentieon | 应用教程: 关于读段组的建议
介绍
本文档描述了使用 Sentieon® Genomics 软件时,推荐使用 RGID 字段以最小化潜在问题的用法。本文档能帮助您确定设置所使用的 bam 文件中 RG 标签的不同字段的最佳实践方法。
RG 字段及其用法的详细描述
RG 字段的详细描述
SAM 格式规范http://samtools.github.io/hts-specs/SAMv1.pdf 将读段组定义为将读段组合在一起的标识符。BAM 文件中的读段组字段可以包含以下标签:
ID
: 标识符。读段组的唯一标识符。您需要确保 RGID 在 BAM 文件内是唯一的,并且在同一个命令的流水线中使用的多个 BAM 文件内也是唯一的。此字段是必需的。
CN
: 中心名称。进行测序的测序中心的名称。通常情况下,此标签不被使用。
DS
: 描述。对读段组的自由格式描述。通常情况下,此标签不被使用。
DT
: 日期。运行生成的日期,遵循 ISO8601 日期或日期/时间格式。通常情况下,此标签不被使用。
FO
: 流程顺序。与每个读段的每个流程所使用的核苷酸对应的数组。通常情况下,此标签不被使用。
KS
: 关键序列。与每个读段的关键序列对应的核苷酸基序的数组。通常情况下,此标签不被使用。
LB
: 文库。用于测序读段的文库。
PG
: 程序。用于处理读段组的程序。通常情况下,相关信息会包含在 BAM 文件的 PG 字段中,而不是在每个读段组内单独设置。
PI
: 预测的中值插入大小。通常情况下,此标签不被使用。
PL
: 平台。用于测序读段的技术。如果您计划运行 BQSR,则需要此标签,因为它用于确定要应用的正确错误模型。
PM
: 平台模型。提供关于所使用平台/技术的更多细节的自由格式文本。通常情况下,此标签不被使用。
PU
: 平台单元。执行测序的测序仪使用的唯一标识符。如果您打算运行 BQSR,则建议使用此标签,因为 BQSR 将对属于相同 PU 的所有读段进行建模;如果 PU 缺失,则 BQSR 将对具有相同 RGID 的读段进行建模。
SM
: 样本名称。读段所属样本的名称。此字段是必需的。
RG 字段标签和 Sentieon®
以下是 RG 字段标签在 Sentieon®工具中使用的一般原则:使用多个输入的 bam 文件时,需要使每个 bam 文件的 ID 标签唯一;两个不同的 bam 输入文件中不能有相同 ID 的 RG。工具使用 SM 标签来识别属于同一样本的读段,并相应地处理它们。去重(Deduplication)使用 LB 标签来确定可能包含重复的组,重复的 reads 应属于同一文库。BQSR 模型需要 PL 标签来确定要应用的错误模型。如果没有 PL 标签,将不会执行 BQSR。如果存在 PU 标签,则 BQSR 建模将基于 PU 标签识别的读段组进行;如果不存在 PU 标签,则 BQSR 建模将基于 ID 标签识别的读段组进行。
RG 字段标签的填写
Sentieon®建议对 RG 字段标签使用以下约定:
ID
:样本名.flowcell.lane.barcode
SM
:样本名
PL
:技术平台,例如 ILLUMINA
PU
:flowcell.lane
LB
:样本名.文库制备
上述建议确保了:即使在多个 bam 文件中,读组 ID 也将是唯一的,即使是相同样本在不同 lane 或使用不同文库进行测序。
BQSR 将根据实际的唯一测序单元创建重新校准,如果多个样本在同一测序单元上进行测序,则可以对其执行。
肿瘤和正常样本的名称在体细胞变异检测中将是唯一的。
Sentieon 软件介绍
Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
评论