Sentieon 项目文章 | 偏远社区原住民澳大利亚人的血型基因组图谱

关键词:血型系统;生信分析;变异检测;
引言
提维岛民由于遗传隔离形成了独特的血型抗原分布特征,与澳大利亚主要献血群体(高加索人种)存在显著差异,在输血过程中容易引发同种免疫反应。面临着因血型抗原多态性导致的输血风险。
为此,研究团队为解决这一问题,首次采用基于全基因组测序的 RBCeq 算法,对 457 例提维岛民样本进行了系统性血型分析。通过 1000 基因组计划第三阶段(1KGP3)与数据比对,结合主成分分析、群体遗传结构解析系统描绘了该群体的血型基因组特征。在数据分析过程中,使用 Sentieon DNAseq 进行了变异检测。
研究发现提维人群具有显著的血型特异性:O 型血比例高达 81.18%,A2 亚型极罕见,存在独特的 RHD 变异(如 DIII type4 频率 1.75%),同时观察到 Do(a+b-)表型高发和 Fy(a-b+)表型低发。

图 1 文献介绍
今天的文献解读专栏给大家带来的是 2022 年发表在 TRANSFUSION 期刊的:“ The genomic landscape of blood groups in Indigenous Australians in remote communities”。
研究材料与方法
样本来源
提维样本 457 例,其中 189 例进行全基因组测序,268 例进行基因分型;
千人基因组计划第三阶段的 2504 例;
变异检测和注释
使用 GATK 和 Sentieon DNASeq (V201808.08)进行变异检测,以 GRCh37 作为参考基因组。经过质量过滤,获得 39 个与 hg38 比对后存在变异的 vcf 文件,为进行血型等位基因注释,将变异转换为 GRCh37 版本。

图 2 Sentieon 的作用
Sentieon DNAseq 通过优化核心算法,显著提升了分析效率:FASTQ 到 vcf 文件的分析流程约提速 10 倍,BAM 到 vcf 文件的分析流程约提速 20 倍。且与开源软件的结果一致性达到 99.7%以上。此外,还支持多倍体和大型基因组分析。Sentieon 能够满足您不同规模的研究需求,帮助您更快速、准确地获取分析结果。
使用 RBCeq 预测血型抗原特征,以基因组变异调用格式(gvcf)为输入,通过 BAMTrimmer 计算血型基因覆盖度。用 RBCeq 来分析 45 个基因的 SNV、indels 和 CNV,用于描述 36 个血型和两个转录因子。
RBCeq 扫描 vcf 文件中的参考和替代等位基因,根据合子性指导亚等位基因选择,并对配对的等位基因进行评分。输出包括 ISBT 血型抗原等位基因和表型预测,以及未映射到 ISBT 等位基因的高质量有害变异分类。使用 BedTools(bin 大小:1)对 RH 基因覆盖度进行标准化分析。
使用 PLINK v1.9 对 42 个常染色体血型编码基因的 695 个变异进行主成分分析。使用 ggplot2 绘制 PCA 结果,采用 ANNOVAR 进行变异注释,并使用 R 库(circlize、ComplexHeatmap 等)进行数据可视化。

图 3 全面表征特定人群血型变异和表型的工作流程概述
研究结果
主成分分析显示提维人群具有独特的血型基因组特征,与澳大利亚主要献血者群体(欧洲人群)的相关性较低。提维人、非洲人和东亚人之间存在明显差异,但这三个群体都与其他全球人群有显著的区别。

图 4 显示来自提维人群和 1KGP3 数据集中 454 个个体的 695 个标记(MAF ≥0.1 和 LD 修剪)的 PCA 图
X 轴表示 PC1 值,Y 轴表示 PC2 值,图中每个点代表一个个体。这里显示的前两个主成分解释了合并数据集中约 80%的观察变异。AMR(美洲)、AFR(非洲)、EAS(东亚)、EUR(欧洲)、LD(连锁不平衡)、MAF(次等位基因频率)、PCA(主成分分析)、SAS(南亚)
在血型分布方面,提维人群展现出独特的模式。O 型血在该人群中占比高达 81.18%,远高于白种人的 44%、非洲人的 49%和亚洲人的 43%比例。A 型血主要以 A1 型为主,A2 型仅占 0.22%,这是首次在原住民人群中报告 A2 亚型的流行率。

图 5 与其他人群先前报告的血型分布比较
在稀有血型方面,Jk(a+w b)在提维人群中的频率为 16.19%,与东亚人的 16.47%相近,而显著高于其他人群。DIII type 4 的纯合频率为 1.75%,这种部分 D 表型若被误判可能会导致输血风险。提维人群 Do(a+b)的流行率为 50.32%,是其他全球人群的两倍以上,而 Do(ab+)的比例不到其他人群的一半。还发现提维人群中 Fy(ab+)的流行率较低。
将提维人群的 RHD/RHCE 血型预测表型频率与 1KGP3 数据集和先前报告进行比较。发现在 151 个提维全基因组测序样本中 RHD 基因纯合的流行率达 100%,高于其他所有人群。D+Cc+E+e+表型在提维和东亚人群中的比例较低,而 D+C+c+Ee+表型的流行率是大多数人群的两倍(除美洲和非洲人群)。

图 6 提维人群和 1KGP3 数据集中 RHD 血型表型频率分布

图 7 提维人群和 1KGP3 数据集中 RHCE 血型表型频率分布
新变异研究发现了 13 个具有临床关联的变异,其中 5 个在提维人群中频率较其他人群高出两倍。同时检测到 28 个罕见变异(频率≤0.05),以及 13 个具有致病性的新变异。这些发现为提维人群的血型遗传特征提供了全面的认识,对指导临床输血实践具有重要意义。

图 8 提维血型基因编码变异分布,包括已知(ISBT)、GnomAD 映射、罕见(在 gnomAD 中<=0.05)、ClinVar 注释和潜在新变异
外环(红色)显示 RBC 抗原编码基因;方框长度代表发现的变异数量;G 表示 gnomAD 基因组频率,E 表示 gnomAD 外显子组频率。外部绿色(浅/深)圈代表映射到不同血型基因 gnomAD 数据的提维人群变异。红色(浅/深)圈表示具有 ISBT 注释的变异及其在 gnomAD 数据集中的频率。蓝色(浅/深)圈表示无 ISBT 注释且在 gnomAD 数据集中罕见的提维人群变异分布。深灰色圈表示带有 gnomAD 频率的 ClinVar 数据库中注释的非 ISBT 变异数量。黄色圈显示潜在新变异的分布
与其他原住民人群相比,提维人群在某些血型系统上表现出独特性。提维数据集中 10%的样本缺乏 KN 血型系统的高频 Yk(a+)抗原,低于西部沙漠人群的 38%。Diego 血型系统仅检测到参考抗原,K+k 在提维人群中完全缺失。MNS 血型系统的 Mc+抗原在提维人群中以杂合形式存在。这些特征进一步证实了提维人群在血型遗传方面的独特性。

图 9 提维人群与其他先前报告人群的血型抗原流行率比较
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
讨论
研究背景与人群特征
本研究首次对提维原住民进行全面血型研究,将其血型基因特征与 1KGP3 数据集中的非洲、美洲、亚洲和欧洲人群进行比较。人群分层分析显示提维参与者具有独特的遗传构成,这与非洲参与者的情况相似。
血型系统分布特征
在 ABO 血型系统中,A2 亚型主要存在于欧洲和非洲人群。Lutheran 血型系统中的 Au(ab+)表型在所有六个人群中都有发现,但频率各异。弱 Jk(a+wb)表型在东亚和提维参与者中的流行率最高。
RH 血型系统特点
RHD 基因纯合(D+表型)在提维人群中达到 100%,其他人群也呈现较高比例。研究发现八个提维个体携带纯合的 DIII type4,该类型容易被误判为 D+,可能增加同种抗-D 产生的风险。
新变异发现
通过二次分析,研究发现 13 个具有致病性临床关联的变异。同时检测到 29 个罕见变异,其中 11 个在提维人群中的频率明显升高。使用生物信息学预测技术还识别出 13 个潜在的新变异。
总结
研究的发现对于识别供者和血型配型具有重要意义,特别是发现东亚人群的血型特征与提维人群最为接近。这些数据将有助于制定针对提维人群和其他澳大利亚原住民社区的输血安全计划。
评论