写点什么

Sentieon 项目文章 | 泛基因组揭示小麦结构变异与栖息地及育种的关联

作者:INSVAST
  • 2025-09-04
    广东
  • 本文字数:4758 字

    阅读完需:约 16 分钟

Sentieon项目文章 | 泛基因组揭示小麦结构变异与栖息地及育种的关联

关键词:小麦;分子育种;生信分析;


引言

普通小麦(AABBDD)源于 7000-8000 年前中东地区四倍体小麦与粗山羊草的自然杂交。约 3500-4000 年前传入中国,逐渐成为华北主要农作物。


自 1950 年以来,我国共育成审定约 3500 个小麦新品种。多样化的生态类型(如春性与冬性、雨养与灌溉、单季与双季)和复杂的饮食文化需求,共同驱动了中国小麦遗传多样性的形成与演变。


研究团队选取 17 个具有代表性的品种进行基因组测序,结合现有的泛基因组资源,识别出大量结构变异。在基因数据分析过程中,研究团队使用 Sentieon DNAseq 进行变异检测,大幅提升了大数据分析的准确性和效率。


分析显示欧洲种质在中国现代小麦育种中的整合过程,以及 VRN-A1 等重要基因的进化特征。在 CM42 中发现的外源片段和 1RS·1BL 易位体中 pSc200 的显著减少,反映了小麦基因组的持续进化。


本周的 Sentieon 文献解读专栏给大家带来一篇被引用高达 50 次的佳作:“Pan-genome bridges wheat structural variations with habitat and breeding”,该文章于 2024 年在《Article》发表,由中国农业科学院作物科学研究所联合南京农业大学、澳大利亚莫道克大学等机构共同完成。


解读文章,给做进化育种的老师学生们一些参考。


材料与方法学

研究材料

17 个品种:BJ8、MZM、XN6028、Abo、NC4、YM158、XY6、AMN、JM47、S4185、CM42、JM22、KF11、ZM366、ZM16、ZM22、HD6172;


研究方法

基因组测序与组装方法

研究团队首先使用 PacBio Sequel II 平台对 17 个小麦品种进行长读长测序,构建 15-kb SMRT Bell 文库,平均深度为 30.37X。并利用 Hi-C 技术对交联的染色质进行 DpnII 酶切、生物素标记和连接并建库,使用 Illumina NovaSeq 6000 进行双端测序,平均深度为 63.82X。


在基因组组装过程中,使用 Hifiasm 进行 contig 组装,结合 ALLHiC 和 Hi-C 数据聚类,用 Juicebox 进行人工校正。


转录组分析与基因注释

转录组分析涵盖四个品种(XY6、AMN、JM22、ZM16)的 8 个组织,使用 DNBSEQ-T7 进行测序,每个样本获得约 10 Gb 数据。并进行 PacBio Iso-seq 测序,构建 0-5 kb 插入文库,在 Sequel II 上获得超过 10 Gb 的测序数据。


基因注释过程包括三个主要方面:重复序列注释、基因结构预测和功能注释。重复序列注释整合了 ClariTeRep 和 TREP-DB 数据库,使用 RepeatMasker 和 Tandem Repeats Finder 进行分析。基因结构预测则综合了同源预测、从头预测和转录本证据,通过 EvidenceModeler 进行整合。功能注释通过比对 NCBI-NR 等五大数据库完成,并使用 InterProScan 进行蛋白结构域和 GO 注释。


变异检测与群体分析

变异检测包括 SNP/InDel 和结构变异(SV)的鉴定。SNP/InDel 鉴定使用 BWA-MEM 进行比对,经过 SAMtools 去除重复,使用 Sentieon DNAseq 进行变异检测,由 GATK 进行过滤。使用 MUMmer 和 SyRI 进行 SV 鉴定。

图 1 Sentieon 的作用


Sentieon 专注于基因数据分析服务,包含从比对到变异检测全流程。Sentieon DNAseq 在 GATK 的基础上,优化了算法模型。在结果一致性高达 99.7%的同时,速度提升 5-10 倍。能在处理 30 万个样本的同时进行 joint Calling 无需合并中间文件,能在 CPU 的计算系统上部署,无需依靠 GPU 等特殊硬件支持。快来申请试用 Sentieon 吧,助力你加快科研进度。


多样性分析整合了 145 个重测序品种数据,通过 t-SNE 分析构建种质网络,使用 VCFtools 计算遗传分化指数。GWAS 分析采用 EMMAX 模型对生态型和籽粒硬度等性状进行研究,显著性阈值设为 P<1×10⁻⁵。

最后,通过系统发育分析和细胞遗传学验证进一步确认研究结果。系统发育分析使用 MAFFT 和 FastTree 构建 VRN-A1 基因的进化树,细胞遗传学验证则通过 FISH/GISH 技术,使用特异性探针在 ZEISS Imager Z2 显微镜下进行观察。


研究结果

基因组组装与泛基因组特征

研究选择了 17 个代表中国 70 年育种历史的普通小麦品种,覆盖不同育种阶段的品系:1950-1960 年代、1980-1990 年代和 2000 年后。测序获得最终组装大小平均 14.86 Gb。平均 contig N50 达 27.36 Mb,97.38%的 contigs 被定位到染色体上,BUSCO 完整性超过 98.90%,每个品种平均识别出约 153,077 个蛋白编码基因。


整合 21 个基因组组装进行泛基因组分析,识别出 170,517 个潜在基因家族,其中 111,955 个为核心基因家族。NLR 基因分析显示,1980-1990 年代品种具有最高的 NLR 基因数量,且 NLR 基因集在亚基因组水平上显示未饱和,表明具有高度动态的存在/缺失变异特征,在未来小麦育种中仍有发现新的抗病基因的可能。


通过与中国春小麦参考基因组比较,识别出 249,976 个结构变异,包括存在/缺失变异、易位和倒位。结构变异从老品种到新品种呈增加趋势。B 亚基因组显示最高的 PAV 积累水平。多维分析显示 1950 和 1980 年代品种间存在明显分离,而 2000 年代后的品种显示出与欧洲多样性的整合特征。

图 2 17 个小麦品种的穗部和种子、基因组组装以及对当地和全球小麦多样性的代表性

a. 基于来自三个先前研究的 285 个全球代表性种质(灰色)、10+基因组测序项目的 15 个品系(蓝色)、中国春(绿色)和新组装基因组(红色)的全基因组重测序 SNPs 数据进行的 t-分布随机邻居嵌入(tSNE)分析。

b. 17 个品种的穗部和种子表型。

c. 三个时期发布的品种间结构变异(SVs)数量的箱线图。

d. 小麦品种中的大型结构易位。在 AMN 和中国春(CS)之间观察到 1B 染色体和 7D 染色体之间的易位,而 BJ8 和 MZM 相对于中国春在 4A 染色体和 1D 染色体之间共享一个共同的易位区域。

e. 21 条染色体中存在/缺失变异(PAVs)的数量。

f,g. 基于结构变异(SVs)(f)和单核苷酸多态性(SNPs)(g)的多维尺度分析(MDS)揭示的从头组装小麦品种间的遗传关系。


结构变异的功能与演化机制

研究团队通过分析 145 个重测序品种的交叉重组数发现,染色体核心着丝粒区域存在大量 PAV,这些结构变异的积累与重组减少和染色体着丝粒区域单倍型块的形成密切相关。


在着丝粒祖先单倍型组(centAHG)分析中,组间在着丝粒近端区域表现出较高的结构变异频率,而组内较低。这种变异模式解释了不同野生二粒小麦谱系在着丝粒近端区域的低重组率,并在三个亚基因组间表现出显著的差异。

图 3 着丝粒近端区域的存在/缺失变异(PAVs)阻止了交叉重组

a,b. 在 2A 染色体(a)和 3A 染色体(b)上,着丝粒上游和下游 100 Mb 范围内(灰色阴影区域)的交叉重组数(CRN)与 PAV 数量的相关性。

c. 在 17 个从头组装的基因组中,2A 染色体的两个着丝粒单倍型组(centAHGs)被分为 cent-H1 和 cent-H2 两组(上图)。下图显示了 2A 染色体上组内 centAHG(紫色)和组间 centAHG(蓝色)之间不同结构变异(SVs)的数量。红色条带表示着丝粒上下游各 100 Mb 的着丝粒近端区域。绿色条带表示先前确定的 centAHG 区块。

d. 在 17 个从头组装的基因组中,3A 染色体上只检测到一个 centAHG。

e,f. 基于 2A 染色体(e)和 3A 染色体(f)着丝粒上下游 100 Mb 范围内的结构变异(SVs)对 145 个标志性品种重测序数据进行的主成分分析(PCA)。绿色散点代表 1950-1960 年代发布的品种;橙色散点代表 1980-1990 年代发布的品种;蓝色散点代表 2000 年后发布的品种;灰色散点代表其他品种。


关键基因的适应性演化

研究发现 VRN-A1 基因在育种过程中经历了重要的结构变异。基于 CDS 区域的 SNP 分析将 VRN-A1 基因单倍型分为一个春性和两个冬性类群。研究显示 VRN-A1 的拷贝数与生态型相关,强冬性品种比冬性和春性品种具有更多拷贝数,也有更高的转录水平。随着小麦从中东向中国传播,VRN-A1 拷贝数增加,但在过去 70 年中国北方现代品种中逐渐减少,表明与气候变暖有关。


在籽粒硬度方面,研究识别出 Pina 的两个等位基因(Pina-D1a 和 Pina-D1b)和 Pinb 的三个等位基因(Pinb-D1a、Pinb-D1b 和 Pinb-D1u)。


中国品种表现出更高的等位基因多样性,且 PIN 基因的地理分布与当地饮食习惯密切相关。在中国南方,为适应蒸煮食品的需求,选择了携带野生型等位基因的软质小麦品种;而在北方,尤其是少数民族地区,则更多选择携带突变等位基因的硬质小麦品种,这与西方烘烤式的食物制备方式相似。

图 4 Pina 和 Pinb 基因的等位基因比较及其在地方品种中的地理分布显示中国南北食品文化对籽粒硬度的不同偏好

a. 145 个标志性品种籽粒硬度的 GWAS 曼哈顿图。箭头标注的显著关联位点代表待进一步研究的 Pina-D1 或 Pinb-D1 基因。

b. 在 10+泛基因组和 17 个新组装基因组中发现的 Pina-D1 和 Pinb-D1 等位基因。左侧面板显示硬度(Ha)位点的共线性模式,其中绿色和蓝色条带分别代表 Pina 和 Pinb。右侧面板展示了这些等位基因的转录本结构,包括 Pina-D1 基因的 Pina-D1a(野生型)和 Pina-D1b(基因缺失),以及 Pinb-D1 基因的 Pinb-D1a(野生型)、Pinb-D1b 和 Pinb-D1u。

c. 不同组装基因组间 Ha 位点的微观共线性分析。实心五边形代表编码基因。灰色线表示基因直系同源关系。

d,e. 地方品种中 Pina-D1 和 Pinb-D1 的单倍型图(右)以及 Ha 位点不同单倍型的籽粒硬度箱线图(左)。蓝色代表野生型 Pin 基因。绿色、红色和黄色分别代表 Pina-D1b、Pinb-D1b 和 Pinb-D1u。***P < 0.001,NS 表示差异不显著。地图使用 R 语言的 sf 和 ggplot2 包绘制。


1RS 染色体易位的快速进化

由于 1RS·1BL 易位与较高产量以及对白粉病和条锈病的良好抗性相关,在中国获得广泛应用,约 45%的商业化品种具有这种易位。通过从头组装的 1RS 序列分析,识别出 1RS 着丝粒周围的一个共线性缺失区域和四个高读取深度区域,以及 1BL 上的一个相关倒位。基于这些特征,1RS·1BL 易位可分为四种单倍型。


1RS 序列又可分为三个亚组。1RS 序列表现出显著的异质性,同时具有增产效应和有利的根系性状,这解释了其在育种中被持续应用。

图 5 过去半个世纪小麦染色体上 1RS 易位的快速重组

a. HD6172 中从头组装的 1RS·1BL 与中国春 1B 染色体之间的共线性分析。蓝色条带表示共线性(syn)缺失区域(198.6-213.3 Mb);黄色条带表示 1BS 上四个高测序深度区域(测序深度=1);红色条带代表 1BL 上与 1RS·1BL 相关的倒位;深绿色条带表示 1RS 的亚端粒序列;浅绿色条带代表 rDNA(25S-18S);黑色三角形标记着着丝粒的位置。CBS 表示共线性块得分。 黑麦基因组 DNA,P/P:存在/存在;PA/PA:部分缺失/部分缺失;

b. 1RS·1BL 品种着丝粒区域(200.0-240.0 Mb)的测序深度热图。参照中国春 1B 染色体(IWGSC RefSeq v1.1),在 1RS·1BL 品种中检测到四个高测序深度区域(214.5-215.2 Mb、234.8-235.5 Mb、234.8-236.5 Mb 和 237.0-239.4 Mb)。

c. DNA 重复序列的多色 FISH 检测在 AMN 的 1RS 端粒区域发现 pSc200 的大片段存在/缺失变异。端部的 pSc200 信号呈红色,NOR(pTa71-2b)呈绿色,1RS 呈粉色。P 表示存在;PA 表示部分缺失。


野生种质渗入的应用潜力

在粗山羊草渗入方面,研究以 CM42 为例,发现其与中国春相比在 3D 和 4D 染色体上存在两个大的渗入片段,以及在 1D、2D 和 7D 染色体上的几个中等大小渗入片段。CM42 不仅作为主要品种被广泛种植,还在中国西南地区育种中被用作新的创始基因型,表明渗入片段未对育种造成不利影响,同时证实了粗山羊草在小麦育种中的重要潜力。


研究讨论

泛基因组与地理分化

小麦在欧亚大陆传播过程中,通过野生四倍体小麦的遗传渗入,在 A 和 B 亚基因组中积累了地理特异性的结构变异。后续育种过程中的杂交促进了这些变异的整合。


着丝粒区域变异

着丝粒区域的 DNA 修饰和特殊蛋白的存在抑制了交叉重组。研究发现品种间的 PAV 与重组减少相关,主要因为野生二粒小麦的渗入和转座子的插入。


春化基因进化

VRN-A1 基因的拷贝数变异和单倍型分化反映了小麦对环境的适应过程。春性品种保留了古老单倍型,而冬性品种具有后期积累的单倍型,这种差异有助于小麦适应不同季节的种植。


硬度与地域的关系

籽粒硬度基因体现了地域性选择差异,特别是在中国南北方和欧洲地区。特定的 Pina 缺失与区域饮食传统密切相关。


1RS 易位进化

1RS·1BL 易位体中 pSc200 重复序列的 PAV 表明其正在进行快速进化,同时也证实了粗山羊草在育种中的重要价值。


研究总结

研究发现结构变异 SV 通过抑制着丝粒区域的重组过程,成为驱动小麦演化的重要机制。阐明了 VRN-A1 复制和食物文化共同塑造了小麦品种生态适应性。研究为优化育种策略提供了理论依据,有助于提高育种效率。还搭建了系统的基因组研究平台,为小麦分子育种提供重要的技术支持和资源保障。

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Sentieon项目文章 | 泛基因组揭示小麦结构变异与栖息地及育种的关联_Sentieon_INSVAST_InfoQ写作社区