人类基因组中仅有约1.5-2%的序列编码蛋白质,其余98%曾长期被忽视,被称为“垃圾DNA”(junk DNA),被视为演化遗留物或“分子化石”。 然而,近数十年的研究表明,这些非编码序列承载着重要的演化信息与调控功能:它们包含内源性逆转录病毒(ERVs)的残留(约占8%),记录了远古病毒与宿主“军备竞赛”的痕迹,其中部分被“驯化”为有用基因(如合胞素对胎盘形成至关重要);它们包含假基因(pseudogenes),如维生素C合成基因(GULO)的失活,揭示灵长类饮食变迁;它们包含大量转座子(LINEs、SINEs)等重复序列,可调控基因表达、塑造基因组结构。本文梳理“垃圾DNA”的发现史、功能诠释与演化意义。
一、“垃圾DNA”概念的由来与修正
-
1970年代:基因组测序发现,大多数真核生物DNA不编码蛋白质,被称为“垃圾DNA”,意为无功能的演化遗留物;
-
ENCODE项目(2003年起):发现至少80%的基因组具有生化活性(转录、结合蛋白等),挑战“垃圾”定义;
-
当前共识:大量非编码DNA具有调控、结构或功能潜力,但部分可能确为中性或弱选择的残留。
二、内源性逆转录病毒(ERVs):病毒入侵的化石记录
-
起源:逆转录病毒(如HIV)曾感染生殖细胞,将自身DNA整合入宿主基因组,并代代遗传;
-
数量:ERVs及其残余占人类基因组约8%,多数已因突变失活;
-
驯化案例:
-
合胞素(syncytin)基因源于ERV包膜蛋白基因,在胎盘形成中促进细胞融合,对哺乳动物胎盘演化至关重要;
-
其他ERV衍生物参与免疫调节、胚胎发育。
-
三、假基因:演化中的“关闭”基因
-
定义:与功能基因同源但因突变失去编码能力的序列;
-
经典案例:
-
GULO基因:编码L-古洛糖酸内酯氧化酶,是维生素C合成途径最后一步酶;多数哺乳动物可自主合成维生素C,但人类、灵长类、豚鼠等GULO基因因突变失活(假基因化),需从饮食摄取;
-
演化意义:反映祖先生活环境中维生素C丰富,自然选择放松了对该基因的维持。
-
四、转座子:基因组中的“跳跃基因”
| 类型 | 特征 | 演化意义 |
|---|---|---|
| LINEs(长散在核元件) | 可自主转座(编码逆转录酶) | 占人类基因组约20%,部分可调控邻近基因表达 |
| SINEs(短散在核元件) | 依赖LINEs机制转座 | 如Alu序列(占人类基因组~10%),参与可变剪接、基因调控 |
| DNA转座子 | 通过“剪切-粘贴”移动 | 在人类中已失活,在其它生物中活跃 |
-
驯化功能:某些转座子序列被宿主细胞“征用”为增强子、启动子,调控发育基因(如Hox基因)表达。
五、非编码RNA与调控“暗物质”
-
ENCODE发现:大量非编码区被转录为RNA(包括长链非编码RNA lncRNA、微小RNA miRNA等);
-
功能:
-
参与染色质结构调节(Xist RNA介导X染色体失活);
-
作为分子诱饵(海绵)结合miRNA,调控靶基因表达;
-
在神经发育、免疫、癌症等过程中具关键作用。
-
六、“垃圾DNA”揭示的演化机制
-
“用进废退”的基因组:假基因化反映功能失去(如GULO),证明环境变化可淘汰不再必需的基因;
-
病毒-宿主共演化:ERVs记录病毒感染的演化史,部分被宿主驯化成为有利元件;
-
重复序列驱动的基因组革新:转座子可重新排列基因、创造新调控位点,为演化提供新素材。
七、从“垃圾”到“宝藏”:科学与公众理解的转变
-
教科书更新:基因组学教材已纳入非编码DNA的功能与演化意义;
-
医学关联:ERVs异常激活与自身免疫病、癌症相关;转座子插入可导致遗传病(如血友病);
-
未来方向:深入解析非编码“暗物质”在发育、疾病、物种特异性中的作用。
参考信息
本报道为“垃圾DNA”综述,可参考:
-
Ohno, Evolution by Gene Duplication, 1970(“垃圾DNA”术语起源);
-
ENCODE项目系列论文(Nature, 2012);
-
合胞素与胎盘演化:Dupressoir et al., PNAS, 2005;
-
GULO与维生素C:Nishikimi et al., Journal of Biological Chemistry, 1994。