作者:Anika Hazra, 多伦多大学 多伦多大学唐纳利细胞和生物分子研究中心的研究人员在人类基因组中发现了近一百万个新的外显子(以成熟 RNA 表达的 DNA 片段)。 研究结果发表在《基因组研究》杂志上。 人类大约有 20,000 个蛋白质编码基因,其中包含大约 180,000 个已知的内部外显子。这些蛋白质编码区仅占整个人类基因组的百分之一。剩下的绝大多数都是一个谜——恰当地称为“黑暗基因组”。 该研究的首席研究员、美国大学分子遗传学系教授兼系主任蒂莫西·休斯 (Timothy Hughes) 表示:“我们已经开始通过一种称为外显子捕获的方法发现近一百万个以前未知的外显子,从而消除暗基因组。” T 的 Temerty 医学院。 “这项技术涉及用质粒进行检测,以在未知组成的 DNA 片段中寻找外显子,”担任加拿大解码基因调控研究主席和多伦多大学医学研究主席 John W. Billes 的休斯说。捕获已不再广泛使用,但事实证明,当与高通量测序结合使用来扫描整个人类基因组时,它是有效的。” 外显子是基因组的片段,可以编码蛋白质以指导体内的组织发育和生物过程。如果它们不需要外部帮助来剪接成成熟的 RNA 转录物,然后将其翻译成蛋白质,则它们被认为是自主的。 该研究背后的团队在质疑其假设之一后,开始测试指导分子遗传学研究的外显子定义模型,即准确去除基因组的非蛋白质编码内含子区域需要通过明确且一致的指标来帮助外显子开始和结束。这一假设似乎并不适用于所有情况,因为外显子的剪接并不总是顺利进行,有时会导致成熟的 RNA 转录物包含非功能性成分。 休斯说:“在不同物种的基因组中几乎没有一致地发现新发现的外显子。” “它们出现在人类基因组中似乎主要是由于随机突变,不太可能在我们的生物学中发挥重要作用。这证明人类的进化涉及大量的试验和错误——很可能是由于我们巨大的体型而促成的。基因组。” 记录人类基因组内随机突变的外显子是有帮助的,因为它们的翻译可能是有害的。长非编码 RNA 外显子是自主的,但通常没有已知的功能,已被证明与癌症的发展有关。研究小组通过外显子捕获发现了大约 125 万个已知和未知的外显子,其中近 4% 是长非编码 RNA 外显子。 此外,位于非编码内含子内的外显子(称为伪外显子)可以发生突变以使弱剪接位点变得更强。这导致外显子被包含在成熟的 RNA 转录物中,可能导致疾病。 “这是一项有趣的研究,它拓宽了我们对人类基因组序列的认识,这些序列有可能被识别为转录 RNA 中的外显子,”多伦多大学 Temerty 医学院分子遗传学教授 Benjamin Blencowe 说。参与研究。 “虽然大多数新检测到的外显子的重要性尚不清楚,但其中一些外显子可能在某些情况下被激活——例如,通过疾病突变——因此对它们进行分类很重要。这项研究将进一步成为促进正在进行的宝贵资源。旨在破译剪接代码的努力。” 更深入地了解影响成熟 RNA 中外显子包含的因素有助于改进 SpliceAI 等程序,SpliceAI 是一种广泛使用的预测剪接位点和异常剪接的工具。 SpliceAI 可以使用新数据(例如通过本研究产生的数据)进行训练,以完善其预测能力。 “SpliceAI 通常不提供有关外显子特征的详细信息,并且预测尚未编目的外显子剪接的能力很差,”Hughes 说。 “我们的外显子捕获数据包含具有生物学意义的信息,可以将其输入 SpliceAI 和其他剪接预测器中,从而为探索暗基因组开辟新途径。” (责任编辑:泉水) |