写点什么

Sentieon 项目文章 | 长读长基因组测序在神经发育障碍分子诊断中的应用

作者:INSVAST
  • 2025-06-12
    美国
  • 本文字数:5404 字

    阅读完需:约 18 分钟

Sentieon 项目文章 | 长读长基因组测序在神经发育障碍分子诊断中的应用

关键词:长读长测序;分子诊断;精准医疗;


引言

神经发育障碍(NDDs)是异质性的疾病,会导致身体和智力的障碍。该疾病困扰着全球 1-3%的儿童。


截至文章发表(2021),WGS 和 WES 仍被认为是临床诊断和 NDDs 病因研究的强大工具。由于短读长测序技术仍难以明辨某些类型的变异,如重复变体、结构变体和移动元件插入;有大量 NDDs 病例仍无法找到具体的遗传变异原因。


研究团队使用 Pacific Biosciences 开发的(CCS/HiFi)技术检测并分析了 6 个 NDD 病例,成功在一个病例中发现 CDKL5 基因的 L1 介导插入;在另一个病例中发现多个可能影响 7 个蛋白质编码基因的结构变异。在检测过程中展示了 CCS 在低可映射区域覆盖度、重复区域分析以及变异检测方面的优势。由此证明 CCS 显著提高罕见遗传病相关变异的检测成功率。



本周的 Sentieon 文献解读专栏给大家带来的是 2021 年发表在 Cell 子刊,被引用高达 31 次的佳作;“如何通过 HIFI 长读长测序,攻破使用短读长测序难以明辨的 NDDs 疾病突变”。


浅析文章,给做分子诊断的老师们一些参考。


材料与方法学

数据来源


Samples:6 名先证者及父母共 18 人来源于一项由 IRB 监管、CSER 联盟主导的关于 NDDs 的研究。(https://doi.org/10.1186/s13073-017-0433-1)。


Source:North Alabama Children’s Specialists in Huntsville, AL, USA

图 1 选择进行 PacBio 测序的先证者信息

ES/GS:外显子测序/基因组测序。P:先证者。D:父亲。M:母亲。F:女性。M:男性。C:白种人。AA:非裔美国人。ID:智力障碍。NP:未进行


研究方法

两种测序方式比较


 (1)IGS 测序(短读长测序)

6 名先证者及他们的亲生父母参与了一项由 IRB 监管的旨在确定 NDDs 遗传原因的研究。6 个家庭都在 4-5 年前做过 IGS 检测。具体步骤简述如下:


使用 QIAGEN 试剂盒分离全血 DNA 并送往 HudsonAlpha Genomic Services Lab 进行 PCR 扩增标准方案建库;在 Illumina HiSeqX 上进行双端 150bp 测序,平均深度 30X,80%以上碱基达到 20x 覆盖度;


在本研究中,使用 DRAGEN 07.011.352.3.2.8b 比对到 hg38,并使用 DRAGEN 进行变异检测,6 个三人家庭的联合基因分析由 GATK3.8-1-0-gf15c1c3ef 完成,SVs 的检测由 Delly(v0.6.01),CNVnator(v0.3.2),ERDS (v1.1), Manta(v1.1.1.)联合进行。然后用人类 1000 基因组计划(2015)、人群频率 gnomAD 数据库、 NDD 公开发布的研究和一个未对外开放的 SV 数据库对个体 SVs 进行注释。


研究者合并了来自不同变体的属于同类且有 50%以上相互重叠的 SVs,<400kb 长度且只被检测到一次的 SVs 变体则被舍弃。使用 MELT(v2.02)的 MELT-SINGLE 模型对 MEIs 进行检测。所有突变的分析和解释都和之前一样以 ACMG 为标准。


在原始分析或在生成长读数据执行重新分析之后,使用 IGS 均没有一个先证者被鉴定出致病的(P),可疑致病的(LP)或意义不明确的(VUS)变体。当然所有的三人家庭亲缘关系都得到了证实。1-5 先证者的 IGS 数据已经上传在 dbGAP(phs001089)并且可用,6 号先证者的数据未公开。


(2)CCS 测序(长读长测序)

用加州 Pacific Biosciences 公司研发的 CCS 技术在 PacBio Sequel II 上进行长读测序,使用 SMRTbell Template Prep Kit 1.0 构建文库并在 SageELF 上调整大小。经过 30h 采集时长和 2h 预延伸,使用 CCS3.4 算法或在该研究中产生的 CCS4 算法加工并产生原始数据。(将一条 reads 中高质量 indels 的数量与通过数量进行比较,证实了这些算法产生的结果是相似的)


先证者们的平均覆盖深度为 32x(25x~44x),亲本的平均覆盖深度为 16x(10x~22x)。CCS 测序读段比对到 GRCh38.p13,使用 Sentieon v.201808.07 的 bwa-mem 对 SNVs 和 indels 进行校准,用 DeepVariant v0.10 进行变异检测并使用 GLNexus v1.2.6 进行联合基因分析。使用 pbmm2 1.0.0 对 SVs 进行校准;并用 pbsv v2.2.2 检出 SVs。


候选人新发 SVs 判定要求先证者基因型为 0/1(杂合子),并且 alt reads 数量≥6;双亲基因型为 0/0(纯合子), 0 条 alt reads,≥5 条 ref reads。


图 2 Sentieon 的作用

基因组装

针对 4 号先证者,团队使用几种策略对其测出的 44x 数据进行组装。组装使用 canu(v1.8),Falcon unzip(falcon-kit 1.8.1),HiCanu(hicanu_rc +325 changes),和 hifiasm(v0.5-dirty-r247)。

其中 Hifiasm 用于产生两个组装结果。


首先使用默认参数,然后使用 Racon(v1.4.10)对 contigs 进行 2 轮纠错。


其次,使用相同的输入 CCS reads 构建三人集组装,以及从 36x 父本 Illumina 文库和 37x 母本 Illumina 文库生成的 kmers(排除单身者)。kmers 使用 yak(r55)生成,使用运行 hifiasm trio 组件的建议参数(kmer 大小= 31,Bloom 过滤器大小为 2 * * 37)。母组件和父组件经过了两轮 Racon(v1.4.10)纠错。以同样的方式为剩余的先证者构建了三人集组装。单个亲属的组装也在 hifiasm(v0.5-dirty-r247)使用默认参数构建。最终的 contigs 都经过了两轮 Racon(v1.4.10)纠错。并使用 Gepard 创建序列差异的点图。


质控

使用 bcftools 和 rtg-tools 进行 SNV 和 indel 一致性分析。“High-quality de novo”变异被定义为常染色体上的 PASS 变异,它们是总等位基因深度(DP)≥7,基因型质量(GQ)≥35 的双等位基因。


重复序列和低可映射性区域分析

分析以往研究过的 35 个基因低复杂度重复区域 bed 文件,识别出 242,222 个难以映射的区域,平均长度为 411bp。使用 bedtools 进行深度计算,以评估数据质量。


CDKL5 cDNA 测序

研究团队从全血中提取 RNA,转录生成 cDNA。针对 CDKL5 基因设计特定引物进行扩增,最后进行 Sanger 测序验证。


验证实验

为验证准确性,采用多层次验证策略。通过 DNA PCR 验证,使用家系三人的 DNA 样本扩增断点连接区域,进行 Sanger 测序。对 DGKB/MLLT3 进行 qPCR 分析,使用两个 TaqMan 探针进行表达定量。并通过比较目标样本与对照组的 CT 值差异,计算相对表达水平。


研究结果

1. CCS 与 IGS 在新发变异检测中的性能对比研究


比较个体在 GIAB 高可信区域中,CCS 与 IGS 变异检测总体一致性达 94.63%,其中 SNVs 一致性高达 96.88%,明显优于 indels 的 75.96%。


在高质控标准下,CCS 检测出的新发 SNVs 数量比 IGS 多,检测的 indels 数量少于 IGS。IGS 的新发 indel 数量远高于生物学预期,很可能多数是假阳性检测。CCS 在常染色体上中孟德尔错误率为 0.18%,低于 IGS 的 0.34%。凸显了 CCS 在 SNV 检测中准确度更高。


每个家系平均检测到 56,000 个 SVs,而先证者平均有 59 个候选新发 SVs。通过 trio-binned hifiasm 构建从头组装,先证者获得平均 N50 为 35.4 Mb 的高质量基因组。


图 3 CCS 和 IGS 在"GIAB"高可信区域内外的一致性比较


2. CCS 与 IGS 在简单重复区域的变异性能比对


通过比较 CCS 和使用 PCR 扩增的 IGS 在简单重复区域的检测能力,来评估 CCS 的性能。

研究发现,在 FMR1 基因 5'UTR 区域的 CGG 三核苷酸重复序列分析中,CCS 检测到 16 个样本存在 6-105 bp 的插入变异。变异的长度多以 3 的倍数出现,目前尚未确定是否代表真实的变异或测序技术的局限性所导致的。


对 34 个其他致病重复区域的分析表明,在 mapQ=60 的跨区域中,97%的区域在所有先证者中至少有 10 个 CCS 读段覆盖,而 IGS 仅覆盖 11%的区域。将分析限制在<100 bp 的区域内,IGS 的覆盖率也仅达到 14%。总体而言,CCS 数据的平均覆盖度显著高于 IGS。


还比较 CCS 和 IGS 在基因组低可映射性区域的覆盖度,结果发现 CCS 的覆盖率依旧比 IGS 高,且 CCS 比 IGS 多产生了两倍的蛋白质变异数量。为评估蛋白质变异检测的准确性,对 57 个功能缺失变异进行可视化,分类为 TP、FP、TN、FN 或 UN。结果表明 CCS 全部正确检测,IGS 中存在未检测到的变异,彰显出 CCS 在复杂基因组区域变异检测方面的优越性。


图 4 每个先证者的 CCS 和 IGS 中跨越 TRE 的读段计数(部分内容)


3. CCS 和 IGS 在 MEIs 检测中的性能评估


研究使用 MELT 和 pbsv 在 IGS 和 CCS 数据对 MEIs 进行比较分析,显示 CCS 对 MEIs 的准确度要比 IGS 高。

在严格质控下,IGS 能检测到 82 个候选新发 Alu 插入,远超预期值。这些 Alu 插入是遗传的,若改变过滤条件以提高敏感性,会导致假阳性率的提高。


使用 CCS 和严格质控过滤,仅能识别出 6 个候选新发 Alu  MEIs。最终确定 4 个候选新发 Alu MEIs,其中 1 个为真实的新发插入,另外 3 个可能由于父母样本测序深度不足而被遗漏。


4. 临床案例分析

1)新发结构变异-CDKL5 基因


CCS 在先证者 6 的 CDKL5 基因中检测到新发结构变异,考虑到 CDKL5 与早期婴儿癫痫性脑病 2 型的关联,以及患者表现出的症状,CDKL5 被认为是患者的致病候选基因。


三重基因组从头组装分析发现,在 CDKL5 的内含子中识别到一个 6,993 bp 的杂合插入,位于父源等位基因上,但发现存在嵌合现象。CDKL5 的插入序列由一个 5'截短的 L1HS 移动元件、PPEF1 基因内含子的序列,以及包含 CDKL5 外显子 3 重复的目标位点重复序列组成。


RT-PCR 显示,除了正常的 240 bp 转录本外,先证者还存在包含重复外显子 3 的 275 bp 转录本,异常剪接会导致移码突变,从而引起 CDKL5 蛋白功能的丧失。


图 5 CDKL5 基因外显子 3 的重复出现在先证者的部分 CDKL5 转录本中

(A) 使用特异于 CDKL5 cDNA 外显子 2-5 的引物进行 RT-PCR,在先证者(P)、父亲(D)和母亲(M)中产生 240 bp 扩增子。一个额外的 275 bp 扩增子仅在先证者中出现(星号标记)。

(B) 对先证者的两个扩增子进行 Sanger 测序证实,240 bp 扩增子包含正常的预期序列,而上方 275 bp 条带中包含重复的外显子 3。这预计会导致移码突变(红圈)和下游终止密码子,p.Thr35ProfsTer52。黄色轮廓框为外显子 3 序列;橙色轮廓框为重复的外显子 3 序列。


2)大型新发结构变异


研究团队在先证者 4 中发现多个影响染色体 6、7 和 9 的复杂新发结构变异。通过三重基因组分类从头组装分析,在染色体 6 中检测到大型臂间倒位。在该染色体上的结构变异涉及到 10 个断点,可能破坏六个基因的功能,但这些基因尚未与神经发育疾病建立关联。


在 7 号和 9 号染色体上,识别出涉及五个断点的结构变异,包括一个倒位和两个易位,均位于父源等位基因上,且不存在嵌合现象。易位和倒位可能导致 DGKB 和 MLLT3 两个基因的功能受损。通过 qPCR 分析证实,先证者的 MLLT3 基因表达水平较其他个体显著降低 35-45%。


图 6 先证者 4 具有染色体 7 和 9 之间的两个插入易位和一个倒位

(A) 显示先证者 4 中鉴定的染色体 7 和 9 断点注释的染色体示意图。示意图来自 NCBI 基因组装饰页面。

(B) 先证者母源(粉色框)和父源(蓝色框)染色体 7 和 9 的 p 臂示意图。先证者的母源等位基因与参考序列匹配。父源序列表示易位(7A;9A 和 7B;9B)和倒位(7A;7C)的结果,显示了片段大小。父源 der9p 中的红色片段相对于 hg38 参考序列是倒置的。

(C) 三个父源重叠群与参考染色体 7 和 9 的比对确定了两个插入易位。关于蓝色和红色框区域,请参见原文中的图 S6 和补充方法。


5. CCS 与 IGS 在 SV 检测中的比较


研究对比 CCS 和 IGS 在结构变异检测中的差异。发现 CCS 检测到的疾病相关变异在 IGS 中均未被识别。研究团队通过分析原始变异调用和 IGS 读数,来探究未被检测到的原因。


在 CDKL5 基因中 MELT 未能检测到 L1 介导的插入,因为存在非 L1 序列。虽然 Delly 和 Manta 检测到一个 230 kb 的重复事件,但最终发现是错误调用了。


对于先证者 4 的复杂断点,尽管 Manta 确实检测到了大部分断点,但分析流程要求至少两个工具进行验证,使得这些发现未被纳入最终结果。


Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。



研究讨论


  • CCS 长读长测序的优势

在变异检测中,CCS 能检测出更全面和准确的结果,能更好地检测简单重复扩增和低可映射区域的变异,还能清晰地显示 IGS 遗漏的复杂结构变异。


  • 从头变异检测的能力

CCS 能够准确识别真实的从头变异,而 IGS 检测到的特有从头变异多为假阳性,表明了 CCS 在变异鉴定方面具有更高的可靠性。


  • 长读长测序的应用前景

在尚未解决的疾病病例中,长读长测序显示出较高的诊断潜力,虽然目前面临着成本和 DNA 输入要求等问题,但都在逐步进行改善。


  • 技术发展趋势预测

随着技术的进步,长读长测序在成本和 DNA 需求方面已经有了显著的改善,计算和分析方法也在不断完善,为罕见疾病的诊断提供了新工具。


研究总结


该研究采用 CCS 长读长测序技术进行变异检测,为未确诊疾病提供了新的诊断思路。研究对 6 例神经发育障碍(NDD)患者进行分析,成功发现 2 例可能致病性变异。结果表明,CCS 技术在低可映射区域覆盖度、重复区域分析以及变异检测方面均显示出优于 IGS 的性能,为 CCS 技术在临床诊断中的应用提供了数据支撑。


文献链接:https://doi.org/10.1016/j.xhgg.2021.100023


Sentieon 软件介绍


Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。


截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Sentieon 项目文章 | 长读长基因组测序在神经发育障碍分子诊断中的应用_长读长测序_INSVAST_InfoQ写作社区