这一壮举提高了该染色体 DNA 测序的准确性,有助于识别遗传疾病。该团队利用最先进的技术拼凑了超过 6200 万个遗传密码字母。
这一突破与之前的参考基因组 T2T-CHM13 一起,为具有 Y 染色体的人提供了第一个完整的基因组。
关键事实:
- 超过一半的 Y 染色体包含非常重复的 DNA,这使得测序特别具有挑战性。
- 完整的 Y 染色体序列(称为 T2T-Y)与 T2T-CHM13 配对,为具有 Y 染色体的个体提供了第一个完整的基因组。
- 对 Y 染色体的新发现有可能揭示以前未知的基因及其功能,特别是与生育力和某些遗传疾病相关的基因及其功能。
资料来源:美国国家标准技术研究所
曾经是人类基因组的最后前沿——Y 染色体——刚刚被完整地绘制出来。
在国家人类基因组研究所 (NHGRI) 的领导下,美国国家标准与技术研究所 (NIST) 和许多其他组织的研究人员团队使用先进的测序技术读出了 Y 染色体的完整 DNA 序列——Y 染色体的一个区域。通常驱动男性生殖发育的基因组。
《自然》杂志发表的一项研究结果 表明,这一进展提高了染色体 DNA 测序的准确性,这可能有助于识别某些遗传性疾病,并有可能揭示其他遗传性疾病的遗传根源。
DNA 测序并不像从基因组的开头到结尾读取遗传物质那么简单。从细胞中提取 DNA 时,DNA 会被切碎,而且即使是最好的测序设备一次也只能处理相对较小的 DNA 片段。因此,研究人员和临床医生依靠特殊的软件将测序代码的片段按照正确的顺序拼凑在一起,就像拼图一样。
参考基因组是一个独立的、已经拼凑在一起的基因组,可作为指导,类似于拼图盒正面的图片。由于我们物种 99.9% 的遗传密码是共享的,任何人类基因组都与参考基因非常匹配。
去年,由来自 NIST 等数十个组织的专家组成的端粒到端粒 (T2T) 联盟的一个团队,通过使用新的测序技术破解以前无法破译的区域,生成了当时最完整的参考基因组基因组的。但这项工作中使用的细胞并不含有最令人费解的 Y 染色体。
“染色体都包含非常重复的 DNA 片段,但超过一半的 Y 染色体都是这样,”该研究的合著者 Justin Zook 说,他是 NIST 瓶中基因组 (GIAB) 联盟的负责人。“如果你用拼图来比喻,很多 Y 染色体看起来就像背景一样,所有的碎片看起来都非常相似。”
通过这项新的努力,T2T 并不是从零开始,因为 GIAB 已经开始行动。
GIAB 的使命是生产可用于评估测序技术或方法的测试材料或基准。这些材料本身是特定基因的高度准确的读数,可以作为检查特定测序方法结果的答案。
NIST 严格分析了多个人类基因组来创建基准。虽然 GIAB 尚未专门针对 Y 染色体制定基准,但该联盟已广泛研究了一个基因组,在新研究之前积累了最大的 Y 染色体数据集。
这些数据成为新研究作者的起点,他们将分析重点放在最了解的 GIAB Y 染色体上。他们结合了尖端技术(即高保真度和纳米孔测序)对样本进行了检查,这些技术使 DNA 片段拼图变得更大,从而更容易组装。
机器学习分析工具和一系列其他高级程序帮助团队识别和组装染色体片段。经过超过 6200 万个遗传密码字母后,作者从头到尾拼出了 GIAB Y 染色体。
研究人员将他们的完整 Y 染色体序列(名为 T2T-Y)与最广泛使用的参考基因组的 Y 染色体部分进行比较,这些部分充满了缺失的代码。他们使用它们作为对超过 1,200 个独立基因组的不同群体进行测序的指南,发现 T2T-Y 极大地改善了结果。
T2T-Y 与该小组之前的参考基因组 T2T-CHM13 相结合,代表了世界上第一个包含 Y 染色体人口一半的完整基因组。
最新添加的内容可用于识别和诊断与 Y 染色体基因相关的少数已知疾病。但更重要的是,新参考文献有可能揭示新基因及其功能。
“生育能力和一些遗传疾病的某些方面肯定与 Y 染色体上的基因有关,”祖克说。“但由于到目前为止分析起来非常困难,我们甚至可能还不知道 Y 染色体到底有多重要。”
在 NIST,Zook 和他的 GIAB 研究人员同事基于 T2T 组装的 X 和 Y 染色体开发了一个新的基准,以帮助将新参考材料的潜在影响转化为现实。