写点什么

Sentieon 发布 RNAseq 加速分析方案

作者:INSVAST
  • 2023-08-24
    广东
  • 本文字数:1667 字

    阅读完需:约 5 分钟

RNAseq,即通过高通量测序技术进行转录组测序分析技术,作为研究 RNA 的表达水平以及表达差异基因的应用,在过去的十几年内迅速发展。而今,RNAseq 在转录本变异检测,基因融合检测,可变剪切检测等场景均有大规模的应用。转录本变异检测,是指通过比较样本 RNA 序列和参考基因组对应序列,来寻找单碱基多态性和小片段的插入缺失,其结果大多用于治病位点的判断或性状相关的研究。融合基因是指两个或多个基因首尾相连,置于同一套调控序列控制之下,构成的嵌合基因,其表达产物为融合蛋白。在某些癌症中,融合基因的检测成为了重要的检测指标。

在数据分析方面,经过多年的探索与沉淀,业界针对不同的 RNAseq 应用逐渐产生了相应的主流分析方案。其中 STAR 作为一款经典的比对软件,在科研与临床的 RNA 测序数据分析中有着广泛的应用。相较于同样经典的 Tophat2 与 HISAT2,STAR 拥有更高的 uniq mapping 比例,且对 lower-quality(包括 more soft-clipped 和错配碱基)比对有较高的容忍度,适用于更加复杂的分析需求,因此 STAR 成为 Broad Institute RNA 分析流程的最佳实践金标准。除此以外,还有包含了变异检测,定量分析,融合检测等其他分析模块共同被使用。

开源软件的一大问题就是速度较慢,耗时长。为克服这个问题,Sentieon 开发了对应的加速模块,包括了比对步骤的 Sentieon STAR、去重模块、处理 RNA junction 的模块和变异检测模块,以期缩短分析流程的耗时。



RNA 变异检测

RNA 变异(SNP 和 Indel)检测的重要性正在逐步被大家所认可。相比于 DNA 变异,RNA 的变异对于异常蛋白的生成有着更加直接的意义,因此在临床上的应用也开始被大家所接受。相对的,加速分析的重要性也在凸显,因为这直接关系到受试者能否及时得到准确的检测结果。

与 DNA 变异检测类似,RNA 的变异检测流程同样遵循业界的金标准 GATK 流程,包括了 STAR 比对,去重,RNA split 的处理,Indel 重比对(可选),BQSR,以及最终的变异检测等多个步骤。在本次的流程搭建中,我们利用 Sentieon 最新开发的 STAR 加速模块,与其他可用加速模块一起,完成了全流程的 RNA 变异检测流程的搭建工作。



我们选取了 2 个 RNAseq 样本进行性能测试,运行包括原版 STAR(2.7.8a 版本)与 GATK(4.2.0 版本)在内的最佳实践流程,赋予同样的线程数再次运行搭建好的 Sentieon 流程,随后进行速度和一致性的比对。速度方面 Sentieon 各个模块的提速均比较明显,两个样本全流程的提速分别在 6.6 倍和 23.9 倍。两个流程的一致性在 98.6-98.8%左右,主要区别来自于 GATK 版本号的不匹配。



RNA 定量+基因融合

基因定量方面,我们使用 SIRV 样本作为测试样本。SIRV 基因是 Lexogen 公司人工合成的 7 个基因,每个基因有多条转录本,共 69 个转录本,可用以检测可变剪切事件,并作定量内参使用。在这些转录本数据中我们选取了不同起始摩尔量的 20 个样本,分别使用原版 STAR 以及 Sentieon STAR 比对之后,使用 Cufflinks2 进行定量。我们共定量了 155344 个转录本,Sentieon 与 STAR 流程的定量结果完全一致。由于这些样本的数据量较小(每个 RNAseq 样本 8.9G 左右,捕获样本数据 1.3G 左右),STAR 在定量流程中所占比重也不太大,因此提速效果不是特别明显。

另外我们做了基因融合流程的搭建与检测,使用的参考标准品 (Seraseq FFPE NTRK fusion) 中包含了 16 个确定的基因融合事件,按照不同的比例与阴性样本混合之后生成 5 个样本(目标丰度 0.23%-50%)作为评测样本。流程方面,我们测试了 Sentieon STAR 替换原版 STAR 进行测试,同时与 Fusioncatcher 进行比对。从结果来看,由于测试的 STAR-Fusion 中的 STAR 版本 (2.7.2b)与 Sentieon STAR 的匹配版本(2.7.8a)不同,两个流程的检出率与特异性也略有差异,总的来说 Sentieon 流程在 PPV 上有较好的表现,但在 Sensitivity 上略低。



方案总结

      在本次方案合作中,Sentieon 提供模块组件,福君团队搭建并测试了 RNA 变异检测流程,纳昂达团队负责了 RNA 定量与基因融合的相关部分。经过真实数据的评测,我们通过数据展示了 Sentieon 流程在 RNAseq 的三项不同应用之中的性能提升,希望能够为业界选择合适的 RNAseq 分析流程提供参考。

 

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Sentieon发布RNAseq加速分析方案_数据分析_INSVAST_InfoQ写作社区