Sentieon 项目文章 | 通过深度测序对血浆中游离线粒体 DNA 进行定量和表征

关键词:cf-DNA;分子模式(DAMP);生信分析;
引言
血浆中的线粒体 DNA 损伤相关分子模式(mtDNA DAMPs)与多种疾病的发病机制和预后密切相关。目前主流的 qPCR 检测方法存在诸多局限性,如易受核基因组线粒体插入序列干扰、检测范围有限等问题。
虽然全基因组测序可能克服这些局限,但血浆中 mtDNA 含量过低难以达到理想测序深度。
为此,研究团队开发了一种新型 RNA 靶向捕获方法,结合 WGS 和生物信息学分析,旨在实现对血浆 mtDNA 的准确定量、片段分布分析、序列来源识别及变异检测。并在四名重度创伤患者的血浆样本中进行了验证,为血浆 mtDNA 的深入研究提供了新的技术手段。

图 1 文献介绍
今天的文献解读专栏给大家带来的是 2021 年发表在 Research Square 期刊的:“Quantitation and Characterization of Cell-Free Mitochondrial DNA in Plasma by Deep Sequencing”。
材料与方法
样本量与样本来源
研究获得南阿拉巴马大学机构审查委员会批准。纳入 4 名创伤中心 STICU 的患者,入选标准为年龄≥18 岁且入住 STICU 时损伤严重程度评分(ISS)≥15。四人均为男性,年龄 19-42 岁。其两名患者接受大量输血(>15U),两名 ISS 相似的患者无需输血。还将来自生物样本库的 mtDNA 低于 qPCR 检测限或存在的 mtDNA 为全长(未片段化)的血浆样本用于片段长度比较。
血浆处理与 DNA 提取
血浆样本采用 700g(4℃)离心 5 分钟处理,随后使用 QIAamp DSP DNA Blood Mini Kit(Qiagen)从 200μl 血浆中分离 DNA,最终储存于 75μl 洗脱缓冲液中(-80℃)。
文库构建与 mtDNA 富集
研究团队使用 KAPA Hyper Prep Kit 进行 DNA 文库构建。使用 1.5X AMPure XP 磁珠(Beckman Coulter)纯化 DNA 后进行 11 个循环的文库扩增,再次纯化并储存于 30μl EB 中。为富集线粒体 DNA,采用 MyBaits Human Global Panel mtDNA 进行捕获,将 7μl 文库与 RNA mtDNA 探针在 55℃杂交 40 小时,后用 Dynabeads MyOne Streptavidin C1 捕获 RNA-DNA 杂交产物。后经 8 个循环 PCR 富集,用 KAPA Library Quantification kit 进行定量,并通过 Bio-Rad Bioanalyzer 分析文库质量。
测序与数据预处理
第一批两个样本使用 HiSeq2000 采用 2x50bp 双端测序,平均读数达 1.03×108±7.46×106;第二批两个样本在 HiSeq2500 完成,同样采用 2x50bp 双端测序,平均读数为 3.14×107±8.70×106。原始数据首先通过 Cutadapt v2.10 去除接头序列,然后使用 Sentieon v201911.01 的 BWA-MEM 与 GRCh38 参考基因组进行比对,比对后的读段通过"sentieon util sort"进行排序并转换为 bam 格式。
比对流程模拟验证
为评估 NUMT 对比对流程准确性的影响,研究团队采用读段模拟的方法进行验证。首先使用 Bedtools v2.26.0 在非多态性 NUMT 的上下游各添加 100bp 侧翼区域,并合并 100bp 内的区间,得到 699 个剩余区间。基于实际样本的片段大小参数,使用 Art Illumina Q Version 2.5.8 模拟读段,采用 HiSeq 2500 错误模型,设置读长 50bp,插入片段大小 100±25bp。
对线粒体序列、合并的 NUMT 序列和已知的多态性 NUMT 序列进行读段模拟,覆盖度均设为 1,000。通过计算假阴性误差百分比(预期丢失的线粒体读段数量与实际覆盖 100 个读段位点之比)和假阳性误差百分比(NUMT 读段错误比对到线粒体基因组的数量)来评估比对准确性。
NUMT 分析与变异检测
使用 NCBI Nucleotide Blast 2.6.0 在 GRCh38 基因组中鉴定 NUMT,参数设置为:以人类线粒体序列作为查询序列,词长度 9,奖励值 1,惩罚值-1,开放间隙 2,延伸间隙 2。共识别出 1521 个 NUMT,总覆盖长度达 1.03×105bp。
变异检测采用 Bcftools 1.11-19 进行,设定最大测序深度 1000,仅考虑碱基质量≥20 且比对质量≥20 的位点。对于高覆盖度位点(≥500×)和中等覆盖度位点(10-500×)分别制定变异判定标准,所有变异通过 NCBI 变异服务 API 添加 dbSNP 标识符。
数据分析与统计方法
研究团队使用 JMP Genomics 8.0 进行 Spearman 等级相关分析,数据可视化通过 Python v3.7.9 环境下的 Pandas、Numpy、Matplotlib 和 Seaborn 等库完成。
研究结果
研究为建立一个分析流程,全面表征细胞游离血浆 mtDNA DAMPs,最终实现将 mtDNA DAMPs 作为疾病预后的生物标志物。而首要挑战要克服分析低丰度、高度片段化的 mtDNA 相对于数量更大的核 DNA 池的限制。
在实验分析中,首先从患者 200 µl 血浆中提取总 DNA,获得平均浓度为 221 ± 193 ng/µl 的 DNA 样本。与正常人血浆中 DNA 片段(>7000 bp)相比,创伤患者的血浆 DNA 呈现高度片段化特征,大多数约为 150 bp 或更短。为克服技术难题,研究采用 RNA 靶向捕获富集试剂盒。通过对四个样本进行 WGS 和靶向捕获的比较分析,发现富集样本中 mtDNA 的序列覆盖度显著提高。但在分析中发现了数量异常大的异质性,这需进一步探讨 NUMTs 的影响。

图 2 正常人类受试者与创伤患者的差异比较
a) 通过生物分析仪测定正常人和创伤患者血浆中游离 DNA 片段大小。正常受试者血浆含有较长片段,而创伤患者血浆含有明显较小的 DNA 片段。
b) 展示富集前后血浆 DNA 片段与线粒体基因组的比对情况,注意到多个异质性变异。
模拟分析显示线粒体基因组中存在 14 个与核基因组完全同源的区域,其中 12 个长度超过 100bp,这些区域主要集中在染色体 1 附近。而在线粒体基因组 9.5-16.5kb 区域中 NUMT 污染相较于其他区域明显较少。

图 3 模拟 mtDNA 和 NUMT 序列读段分析
a) 展示与线粒体基因组比对的模拟 mtDNA 和 NUMT 读段,发现 14 个无法区分的位点。
b) 展示 NUMT 和线粒体基因组序列高度同源重叠区段。
c) 以箱线图展示不同映射质量下的假阴性和假阳性百分比。
为提高分析准确性,研究团队将序列数据重新比对到完整的 GRCh38 人类参考基因组。结果显示,比对到线粒体基因组的 NUMT 序列总量超过了真实 mtDNA 序列的比对量。通过斯皮尔曼等级相关分析评估序列捕获富集效果,发现配对的富集和未富集样本之间相关性较差,而同一患者不同时间点的富集样本间相关性较高。与 WGS 相比,该富集和比对策略实现了 1488 ± 1045(平均值±标准差)倍的富集。

图 4 靶向捕获富集与 NUMT 排除分析
a) 展示生物信息学处理后 mtDNA 片段的富集情况。
b) 分析单个大量输血患者输血前后的片段覆盖度相关性。
c) 比较三个患者富集前后的富集效率。
通过分析 138 个已知插入位点的平均覆盖度,研究团队发现了 13 个潜在的多态性 NUMT 位点,其中 3 个 NUMT 基因型得到确认。这些发现表明,RNA 靶向探针不仅可以捕获 mtDNA,还能捕获多态性 NUMTs 及其附近的核 DNA 序列。通过检测这些区域的测序覆盖度,可以识别患者特异性的多态性 NUMTs。

图 5 多态性 NUMT 插入位点分析
a) 展示靶向捕获如何导致多态性 NUMT 侧翼区域的测序。
b) 展示两个患者中特定多态性 NUMT 的差异。
c) 展示读段部分比对到核基因组,部分比对到线粒体基因组的情况。
d) 分析多态性 NUMT 侧翼区域与线粒体基因组的同源性。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
讨论

图 6 文献讨论
UMT 分析策略
研究提出了区分 mtDNA 和 NUMTs 重叠信号的策略。NUMTs 包括参考基因组中已收录的和多态性两种类型。通过序列变异和 NUMT 邻近区域的覆盖度来处理这两类 NUMTs,研究发现多态性 NUMTs 在总 mtDNA DAMP 池中只占很小且稳定的比例。
测序特征分析
深度测序方案使研究能够确定血浆 mtDNA DAMPs 的片段长度分布和异质性特征。即使在样本数量有限的情况下,也能检测到平均片段大小随患者和入院后时间的变化。研究还检测到多个随时间变化的异质性变异,表明无细胞血浆 mtDNA 中的异质性特征可能发展成为器官功能障碍的新型标志物。
研究局限与发现
尽管患者数量有限制约了研究的生物学意义,但研究仍发现输血和非输血患者之间存在显著差异,包括平均 mtDNA 丰度的变化。研究还注意到 NUMT 覆盖度在患者间相对一致,可作为标准化 mtDNA DAMP 丰度的新颖因素。
总结
本研究提出了一个新的实验和分析工作流程,相比当前方法能够以更高的准确性和敏感性评估血浆无细胞 mtDNA DAMP 的特征。研究结果强调了在进行 mtDNA 定量分析时必须考虑 NUMTs 的影响,并采用适当的分析策略来确保结果的准确性。
评论