Sentieon | 泛基因组相比传统变异检测的优势
在常规的基因组学研究中,人们常常把“参照基因组”当作某一物种遗传信息的“规范模板”。但这犹如仅通过一份标准住宅设计图去推断所有家庭的住宅布局,不可避免地忽视了众多个性化的特征。泛基因组(Pan-genome)概念的提出,完全超越了这一限制,为我们展现了一个更加宏大、精确且不断变化的物种遗传全貌。
本期将聚焦泛基因组在遗传疾病相关研究中的优势。
一、突破“单一参考”的局限:从个体代表性到群体包容性
自 2003 年人类基因组计划(HGP)完成以来,GRCh38 等线性参考基因组虽为基因组学研究奠定了基石,但其本质是一个拼接自少数个体(且以欧洲血统为主)的“共识”序列,无法反映人类群体内部巨大的遗传多态性。尤其在复杂区域——如着丝粒周边(pericentromeric)、端粒附近(subtelomeric)、节段重复序列(segmental duplications, SDs)及 rDNA 阵列中——仍存在约 150 Mb 的缺口。即便 2022 年 T2T-CHM13 实现了首个端粒到端粒(T2T)无缺口单倍体组装,它仍是单一单倍型,无法代表结构变异(SVs)的群体多样性。
HPRC(人类泛基因组参考联盟)基于 47 个全球分布个体(94 条单倍型)构建的泛基因组,首次实现了对人类基因组“常见变异空间”的系统性覆盖,从根本上解决了传统参考中“参考偏向”(reference bias)问题——即非参考等位基因在比对中被系统性低估或误判。
图 1 两个泛基因组项目所采集样本的地理来源
HPRC(人类泛基因组参考联盟):47 个个体,来自非洲、美洲、亚洲、欧洲四大洲;
CPC(中国泛基因组联盟):58 个核心样本,覆盖中国 36 个少数民族。
泛基因组的核心理念在于:用图结构(graph-based pangenome)替代线性序列,整合多个高质量、单倍型分型(haplotype-phased)的个体基因组,构建一个能容纳多种等位基因、插入缺失、倒位、拷贝数变异等的“参考网络”。
泛基因组图谱能容纳 SNV、Indel、CNV、倒位等各类变异,能覆盖节段重复序列(SDs)这一传统“盲区。从机制上解释了新生儿中高达 1/800 的罗伯逊易位(Robertsonian translocations, ROBs)发生率,证明泛基因组可解析染色体结构病的起源。
相比 GRCh38,新增 119 Mb 常见多态序列,新增 1,115 个新基因重复(novel gene duplications),其中约 90 Mb 源于结构变异(SVs)。
二、显著提升变异检出能力与准确性
23 年的一篇综述[1]明确指出,以泛基因组替代 GRCh38 作为比对参考后,变异检测性能获得飞跃式提升:
小变异(SNV/Indel)检测错误率降低 34%:因图结构可将 reads 更准确地锚定至其真实来源的等位路径,避免了在高度同源区域(如 SDs)的错配。
每单倍型检出的结构变异数量增加 104%:即翻倍!这意味着大量以往“不可见”的 SVs(尤其是复杂 SVs,如嵌套插入、倒位伴随缺失)被系统性揭示。例如,HPRC 泛基因组新增了 119 Mb 的常见多态序列和 1,115 个新基因重复——其中约 90 Mb 源于 SVs。
具体来看,泛基因组的最大价值之一,在于它首次使得对高度重复、传统上难以比对的区域进行系统性群体遗传学研究成为可能:
1. 节段重复区(SDs)是 SNV 富集与基因转换热点
Vollger et al.(2023)利用 HPRC 泛基因组发现:SDs 中的 SNV 密度比非重复区高 1.6 倍,其中至少 23%归因于基因间基因转换(Interlocus Gene Conversion, IGC)。不同于等位基因间的同源转换,IGC 发生在不同基因座之间,可导致功能基因(如 F8 凝血因子、HBG1 胎儿血红蛋白、C4B 补体)的等位基因“横向传播”,既可能促进有利突变扩散(进化意义),也可能造成致病突变蔓延(疾病风险)。研究识别出 800 余个受 IGC 影响的蛋白编码基因,其中 38 个为进化上高度保守的“约束基因”(constrained genes),突变易致严重表型。
2. 近端着丝粒染色体短臂(acrocentric p-arms)是异源重组温床
Guarracino et al.(2023)通过泛基因组图谱发现:13、14、15、21、22 号染色体的 p-臂因富含 rDNA 阵列与伪同源区(PHRs),在减数分裂中易发生非同源染色体间的异源重组(heterologous recombination),直接导致罗伯逊易位(ROBs)——新生儿中发生率约 1/800。泛基因组首次精准定位 ROBs 断点均位于 PHRs,从机制上解释了这类常见染色体病的起源。
这些区域曾是临床基因组学的“禁区”,如今泛基因组正将其转化为新的致病机制与生物标志物发现源泉。
三、推动精准医学与人群特异性研究:以中国泛基因组(CPC)为例
HPRC 泛基因组虽具开创性,但亚洲样本仅占 13%,存在显著人群偏差。对此,中国泛基因组联盟(CPC)率先响应,基于 58 个核心样本(涵盖 36 个少数民族),构建了首个中国人群代表性泛基因组:
新增 189 Mb 多态序列、1,367 个重复蛋白编码基因。
发现 78,072 个 SVs,其中 34,223 个为全新变异。
鉴定出与角质化、紫外线响应、DNA 修复、免疫及寿命调控相关的新基因/等位基因,部分源于古菌水平基因转移。
尤为关键的是,CPC 数据成功将 558 个 ClinVar 中列为“致病/可能致病/VUS”的变异重分类为“可能良性”——因其在东亚人群中频率过高(而既往公共数据库缺乏亚洲数据)。这直接避免了临床误诊,彰显泛基因组在人群特异性变异解读中的不可替代性:没有足够多样化的泛基因组,罕见病诊断与遗传咨询将长期受制于“欧洲中心主义”偏见。
参考文献
[1] Wang, B., Dang, N., Yang, X., Xu, S., & Ye, K. (2023). The human pangenome reference: the beginning of a new era for genomics. Science Bulletin, 68(14), 1484–1487.
Sentieon 软件介绍
Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至 2025 年 7 月份,Sentieon 已经在全球范围内为 1860+用户提供服务,用户处理超过 4980+PB 数据量,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 1500 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。







评论