进化与群体遗传学是理解生命演化历史和生物多样性的理论基础。它结合了遗传学、统计学、生物信息学和生态学,研究基因在群体中如何随时间变化。
如果说基因组学是研究个体的“静态蓝图”,那么群体遗传学就是研究群体蓝图的变化规律。
? 核心研究内容
| 研究方向 | 核心任务 | 关键方法与技术 | 应用实例 |
|---|---|---|---|
| 群体遗传结构 | 分析不同地理或表型群体间的遗传差异、基因流和亲缘关系。 | STRUCTURE, ADMIXTURE, PCA, F-statistics (Fst) | 分析中国不同地区人群的遗传构成,追溯迁徙历史。 |
| 系统发育分析 | 构建物种或基因的进化树,推断亲缘关系和进化历史。 | 最大似然法 (RAxML, IQ-TREE)、贝叶斯法 (MrBayes, BEAST)、邻接法 | 解析新冠病毒不同变异株(如Delta, Omicron)的进化起源和传播路径。 |
| 群体历史动态 | 推断群体过去的变化,如种群扩张、瓶颈效应、迁徙事件等。 | PSMC, MSMC (基于基因组)、贝叶斯天际线 (BEAST) | 研究大熊猫在历史上经历的种群数量剧烈下降事件。 |
| 自然选择检测 | 在全基因组范围内寻找受到自然选择的信号,鉴定适应性进化基因。 | Tajima's D, Fu's Fs (中性检验)、dN/dS (Ka/Ks)、XP-CLR, iHS | 在西藏人群基因组中寻找与高原适应性相关的基因(如 EPAS1)。 |
?️ 关键技术方法
这些研究依赖于一系列强大的计算和统计工具:
-
群体结构分析
-
主成分分析 (PCA):降维可视化不同个体间的遗传距离,快速鉴定群体分层。
-
STRUCTURE/ADMIXTURE:假设存在K个祖先群体,推断每个个体的祖先成分比例。
-
F统计量 (Fst):量化群体间遗传分化程度,Fst越高说明分化越显著。
-
-
系统发育构建
-
序列比对:使用 MAFFT 或 ClustalW 对DNA或蛋白质序列进行多重比对。
-
模型选择:使用 ModelFinder 或 jModelTest 找到最适合数据的核苷酸替换模型。
-
树构建与评估:使用 IQ-TREE (快速) 或 MrBayes (贝叶斯) 建树,并用自举法 或后验概率 评估节点可靠性。
-
-
群体历史推断
-
PSMC/MSMC:利用单个或少数几个二倍体基因组的杂合度信息,推断过去几十万年的有效群体大小变化。
-
贝叶斯天际线 (BEAST):利用序列采样时间和系统发育树,推断近期的群体动态。
-
-
选择压力分析
-
dN/dS (Ka/Ks):计算非同义替换与同义替换的比率。>1 表示正选择,=1 中性进化,<1 表示纯化选择。
-
Tajima's D:比较核苷酸多样性,显著负值 可能指示群体扩张或定向选择,显著正值 可能指示平衡选择或群体收缩。
-
? 应用实例:追溯家犬的起源与迁徙
场景:研究家犬是从哪个地区的灰狼驯化而来,以及如何随人类迁徙到全球。
研究流程:
-
样本收集:收集全球各地的 500只 家犬和 200只 灰狼的DNA样本。
-
测序与变异检测:进行全基因组测序,用 BWA 比对到参考基因组,用 GATK 识别SNP位点。
-
群体结构分析:
-
用 PCA 分析所有个体,发现家犬和灰狼在主成分空间中有部分重叠,但明显可区分。
-
用 ADMIXTURE 分析,发现当K=2时,家犬和灰狼被清晰分开。
-
-
系统发育分析:
-
基于全基因组SNP,用 IQ-TREE 构建系统发育树。
-
结果发现:所有家犬聚在一起,形成一个单系群;而南方的灰狼并未与家犬直接聚在一起。
-
-
群体历史与选择分析:
-
结合考古学和基因组数据,用 MSMC 推断家犬和灰狼的分化时间大约在 3.3万年前。
-
分析发现,家犬基因组中与淀粉消化相关的基因(如 AMY2B)拷贝数显著增加,这是适应与人类共生的关键选择信号。
-
-
结论:家犬可能起源于东亚南部的灰狼,并在约1.5万年前随人类向全球迁徙扩散。与淀粉消化相关的基因是其驯化过程中的关键适应特征。
? 总结
进化与群体遗传学是连接微观进化(基因频率变化)与宏观进化(物种分化)的桥梁。
-
它回答的问题是:群体的遗传多样性如何?不同群体间如何分化?哪些基因在进化中经历了自然选择?物种的种群历史是怎样的?
-
它的核心价值在于:为理解生物多样性、物种适应性、疾病易感性的群体差异、以及病原体进化提供了理论和计算框架。
-
它与生物信息学的关系是:现代群体遗传学研究完全依赖生物信息学工具。从处理海量基因组数据、进行复杂的统计推断,到构建和可视化进化树,每一步都离不开计算分析。