2019年,美国加州圣克鲁兹分校基因组学研究员凯伦·米加(Karen Miga)和马里兰州贝塞斯达国家人类基因组研究所研究员亚当·菲利普(Adam Phillippy)启动了“端粒至端粒(T2T)”的联合研究项目,当时大约全球十分之一的人类基因组仍未完成测序,然而,现在该数据已降至零。2021年5月,该联合研究项目声称发现第一个端粒至端粒的人类基因组序列,使用人类共识基因组序列图谱GRCh38增加了近2亿新碱基对,并为人类基因组计划写上了最后一章。
最早发布于2013年的GRCh38基因组序列图谱是一个具有价值的研究工具,它是绘制基因序列读数的“脚手架”,但它也存在许多漏洞,其主要问题在于基因序列读数虽然精确,但过于简短,无法明确绘制高度重复的基因组序列,包括:覆盖染色体末端的端粒,细胞分裂期间协调新复制DNA分裂的着丝粒(centromeres)。
长读测序技术被证明是改变游戏规则的技术,该技术是美国太平洋生物科学公司和英国牛津纳米孔技术公司共同开发的,它能在一次性基因序列读取中,对数万至数十亿个碱基对进行排序,但至少在测序初期,并不是没有错误。时值2020年,T2T项目研究人员重建了他们的第2、3条单独染色体——X和8,然而,太平洋生物科学公司的测序工作已取得重大进展,T2T科学家能检测到长时间重复序列的微小变化,这些微妙的“指纹”使长而重复的染色体片段变得更易处理,基因组剩余部分则很快排列起来,牛津纳米孔技术公司还捕获了许多调节基因表达的DNA修饰,同时,T2T基因测序能在基因组范围内绘制“表观遗传标记”。
已测序的T2T基因组源自包含两组相同染色体的细胞株,正常的二倍体人类基因组的每个染色体有两个版本,目前研究人员正在研究“阶段策略”,能够自信地将每个序列分配给合适的染色体副本。
T2T项目首席研究员之一、纽约洛克菲勒大学遗传学家埃里希·贾维斯(Erich Jarvis)说:“我们的目标是掌握平均97%的人类等位基因多样性,我认为未来10年之内,我们能将端粒至端粒基因组测序作为常规操作,同时,我们希望利用完整的基因组装配能力提供地球每种脊椎动物的完整基因组序列。”
|
完整版基因组图 |