Sentieon | 应用教程:唯一分子标识符 (UMI)
介绍
本文介绍了使用 Sentieon®工具处理下一代测序数据的方法,同时利用分子条码信息(也称为唯一分子索引或 UMI)。分子条码可以在测序之前在模板 DNA 分子的末端引入唯一标签,从而大大减少 PCR 重复和测序错误对变异调用过程的影响。
Sentieon®工具提供从读数据中提取 UMI 标签和执行基于条码的一致性生成的功能。此流程预期输入是无适配器的条形码化读取数据。UMI 一致性流程的输出是一个包含从条形码读数据派生出的一致性分子的 BAM 文件。这些一致性分子可以作为大多数变异调用软件的输入。
Sentieon® UMI 流程
整体 UMI 流程结构
Sentieon®提供了两个用于 UMI NGS 数据处理的实用工具:
Sentieon®建议使用以下典型的 UMI 处理流程(图 1):
使用工具 umi extract 从未对齐的输入读取中提取 UMI 标签
使用 Sentieon®bwa mem 将其对齐到参考基因组
使用工具 umi consensus 进行 UMI 一致性调用
使用 Sentieon®bwa mem 将一致性读取对齐并排序到参考基因组
图 1 Sentieon® UMI 处理流程
以下是一个代码示例。每个组件的详细信息将在后续部分进行解释。
确定读取结构并提取条形码序列
作为第一步,您需要从输入读取中提取条形码序列。这可以使用 Sentieon®umi extract 命令来完成,它会从读取中提取条形码序列信息,并将其添加到读取描述中。如前所述,在运行 umi 标签提取之前,应从输入读取中删除适配器序列。这可以由其他第三方工具来完成。
umi extract 的输出是以交错的 R1 和 R2 读取的 FASTQ 格式。默认情况下,提取命令的输出将发送到标准输出,除非通过选项-o 进行其他定义。
umi extract 命令的语法如下:
umi extract 命令的第一个参数定义了读取结构。对于成对读取,应该用逗号','分隔的两个读取结构进行指定。
读取结构由<number><operator>定义。数字可以是任何数字或'+',用于指示读取结尾。可能的操作符包括:
T 模板序列
M 分子条码序列
S 应忽略的一系列碱基
使用-d 选项可以提取双链 UMI 并标记其起源的链。双链 UMI 提取需要对两个链都指定相同的读取结构。
作为示例,以下命令演示了在成对读取上进行单端 UMI 提取。在这种情况下,成对读取中的第一个读取包含一个 8bp 的分子条码,后面是一个 12bp 的间隔序列,然后是模板序列。第二个读取只包含模板序列。成对读取将在输出文件中交错排列。请注意,在此示例中,输出被导向压缩为 FASTQ 文件的 gzip。一般来说,我们建议将输出直接导向下一步(Sentieon®bwa mem)。
以下命令演示了双链 UMI 提取,其中两个读取均包含 4bp 的分子条码,后跟模板序列。
以下是一个使用案例,当 UMI 序列已经在一个单独的 FASTQ 文件 sample_I1.fastq.gz 中时。在运行这种模式下,只允许有一个额外的 UMI 索引读取。UMI 索引读取应该不包含模板序列。这种模式不允许双链 UMI 提取。
umi extract 的输出包含额外的标签。默认情况下,FASTQ 输出包含 XR 标签,该标签将用于 umi consensus。
表格 40 umi extract 生成的额外标签
对参考基因组的比对
可以使用 bwa mem 将交错的 fastq 文件对齐到参考基因组。使用-p 选项来指定输入文件为交错的 fastq 文件,而-C 选项将导致将 fastq 描述中的条形码标签附加到读取的 SAM 记录中。
共识分子的创建
流程的下一个阶段是使用 Sentieon® umi consensus 从已对齐的带条形码标记的读取中创建共识分子。
其语法如下:umi consensus
默认情况下,umi consensus 将从标准输入以 SAM 格式读取输入。可以使用选项来覆盖默认值,指定输入文件和除 SAM 之外的文件格式的选项。输出是一个包含共识分子的交错的 fastq 文件,可以通过 Sentieon®重新映射。
下面是一个示例:umi consensus --input --input_format umi consensus bwa mem
生成的输出会生成以下额外的标签 umi consensus
表格 41:umi consensus 的输出 fastq 标签
报告没有 BI/BD 标签的共识读取
默认情况下,umi consensus 会重新校准 INDEL 错误率,并将这些信息存储在BI/BD 标签中。可以通过从--copy_tags 选项中删除 BI/BD 标签来关闭这个建模步骤。因此,如果不希望在报告的共识读中包含 BI/BD 标签,可以将这些标签从--copy_tags 选项中移除。
共识读取到参考基因组的比对
可以使用 Sentieon®将交错的 fastq 比对到参考基因组上。与之前的比对类似,选项和选项是必需的。将输出导入 Sentieon®,将会生成用于变异调用的输出 BAM 文件。选项用于指示工具执行共识读取的必要后处理操作。umi consensus bwa mem -p -C util sort --umi_post_process
从共识读取中进行变异调用
来自 UMI 共识流程的 BAM 文件已经准备好进行变异调用的分析。不应执行重复标记或基质质量调整的其他步骤,因为 UMI 共识步骤本质上是 PCR 重复标记和基质质量再校准的结合。
虽然可以使用任何体细胞突变调用程序与共识读取一起使用,但出于其对低频变异检测的高敏感性,我们推荐使用 TNscope®。
UMI 共识读取的日记
输出的日志包含关于输入读取的统计信息,可用于质量控制。目前提供的两个信息是:umi consensus
组大小直方图:组大小是在一个组中支持一个共识读取的原始读取数量。该直方图显示了具有特定组大小的 UMI 共识读取的数量,并可用于检测问题:
如果单体比例(组大小为 1 的 UMI 共识)过高,则很难准确建模 PCR 错误率并改善质量分数。
相反,如果每个 UMI 组的平均读取数过高,这可能表示文库制备中的输入 DNA 量过低,这将导致共识读取的覆盖范围较低。
双工统计:使用双工 UMI 标签,可以通过比较 R1 和 R2 读取中的 UMI 标签,识别来自 DNA 每条链的读取,并识别样本制备过程中引起的错误。日志中报告的数字表示单链或双链共识读取的数量,按以下代码进行分组:umi consensus
组代码 1:无互补 UMI 组的单链共识。
组代码 2:有来自两个互补 UMI 组的双链共识。
组代码 3:R1 和 R2 读取的 UMI 序列相同。在这种情况下,依靠插入物的链确定输入读取是否来自同一链。此组进一步细分为:umi consensus
组代码 31:所有读取来自同一链的单链共识。
组代码 32:来自 DNA 两条链的双链共识。
评论