当前位置: 主页 > 生物技术 > 生物信息学

生物信息学之进化与群体遗传学

2026-04-03 19:11 xiaoyan36 阅读 0

进化与群体遗传学是理解生命演化历史和生物多样性的理论基础。它结合了遗传学、统计学、生物信息学和生态学,研究基因在群体中如何随时间变化

如果说基因组学是研究个体的“静态蓝图”,那么群体遗传学就是研究群体蓝图的变化规律

? 核心研究内容

 
 
研究方向 核心任务 关键方法与技术 应用实例
群体遗传结构 分析不同地理或表型群体间的遗传差异、基因流和亲缘关系。 STRUCTUREADMIXTUREPCAF-statistics (Fst) 分析中国不同地区人群的遗传构成,追溯迁徙历史。
系统发育分析 构建物种或基因的进化树,推断亲缘关系和进化历史。 最大似然法 (RAxML, IQ-TREE)贝叶斯法 (MrBayes, BEAST)邻接法 解析新冠病毒不同变异株(如Delta, Omicron)的进化起源和传播路径。
群体历史动态 推断群体过去的变化,如种群扩张、瓶颈效应、迁徙事件等。 PSMC, MSMC (基于基因组)、贝叶斯天际线 (BEAST) 研究大熊猫在历史上经历的种群数量剧烈下降事件。
自然选择检测 在全基因组范围内寻找受到自然选择的信号,鉴定适应性进化基因。 Tajima's DFu's Fs (中性检验)、dN/dS (Ka/Ks)XP-CLR, iHS 在西藏人群基因组中寻找与高原适应性相关的基因(如 EPAS1)。

?️ 关键技术方法

这些研究依赖于一系列强大的计算和统计工具:

  1. 群体结构分析

    • 主成分分析 (PCA):降维可视化不同个体间的遗传距离,快速鉴定群体分层。

    • STRUCTURE/ADMIXTURE:假设存在K个祖先群体,推断每个个体的祖先成分比例。

    • F统计量 (Fst):量化群体间遗传分化程度,Fst越高说明分化越显著。

  2. 系统发育构建

    • 序列比对:使用 MAFFT 或 ClustalW 对DNA或蛋白质序列进行多重比对。

    • 模型选择:使用 ModelFinder 或 jModelTest 找到最适合数据的核苷酸替换模型。

    • 树构建与评估:使用 IQ-TREE (快速) 或 MrBayes (贝叶斯) 建树,并用自举法 或后验概率 评估节点可靠性。

  3. 群体历史推断

    • PSMC/MSMC:利用单个或少数几个二倍体基因组的杂合度信息,推断过去几十万年的有效群体大小变化。

    • 贝叶斯天际线 (BEAST):利用序列采样时间和系统发育树,推断近期的群体动态。

  4. 选择压力分析

    • dN/dS (Ka/Ks):计算非同义替换与同义替换的比率。>1 表示正选择,=1 中性进化,<1 表示纯化选择。

    • Tajima's D:比较核苷酸多样性,显著负值 可能指示群体扩张或定向选择,显著正值 可能指示平衡选择或群体收缩。

? 应用实例:追溯家犬的起源与迁徙

场景:研究家犬是从哪个地区的灰狼驯化而来,以及如何随人类迁徙到全球。

研究流程

  1. 样本收集:收集全球各地的 500只 家犬和 200只 灰狼的DNA样本。

  2. 测序与变异检测:进行全基因组测序,用 BWA 比对到参考基因组,用 GATK 识别SNP位点。

  3. 群体结构分析

    • 用 PCA 分析所有个体,发现家犬和灰狼在主成分空间中有部分重叠,但明显可区分。

    • 用 ADMIXTURE 分析,发现当K=2时,家犬和灰狼被清晰分开。

  4. 系统发育分析

    • 基于全基因组SNP,用 IQ-TREE 构建系统发育树。

    • 结果发现:所有家犬聚在一起,形成一个单系群;而南方的灰狼并未与家犬直接聚在一起。

  5. 群体历史与选择分析

    • 结合考古学和基因组数据,用 MSMC 推断家犬和灰狼的分化时间大约在 3.3万年前

    • 分析发现,家犬基因组中与淀粉消化相关的基因(如 AMY2B)拷贝数显著增加,这是适应与人类共生的关键选择信号。

  6. 结论:家犬可能起源于东亚南部的灰狼,并在约1.5万年前随人类向全球迁徙扩散。与淀粉消化相关的基因是其驯化过程中的关键适应特征。

? 总结

进化与群体遗传学是连接微观进化(基因频率变化)与宏观进化(物种分化)的桥梁。

  • 它回答的问题是:群体的遗传多样性如何?不同群体间如何分化?哪些基因在进化中经历了自然选择?物种的种群历史是怎样的?

  • 它的核心价值在于:为理解生物多样性、物种适应性、疾病易感性的群体差异、以及病原体进化提供了理论和计算框架

  • 它与生物信息学的关系是现代群体遗传学研究完全依赖生物信息学工具。从处理海量基因组数据、进行复杂的统计推断,到构建和可视化进化树,每一步都离不开计算分析。

    发表评论