近日,牛津大学大数据研究所的科学家在绘制人类之间的全部遗传关系图方面迈出了重要的一步,即创造除了一个单一的家谱,可以追溯我们所有人的祖先。该研究已于2月24日发表在《科学》期刊上。
在过去的二十年中,人类基因研究取得了非凡的进步,为数十万人(包括数千名史前人)生成了基因组数据。这提出了更加令人兴奋的可能性,即追踪人类遗传多样性的起源,以生成世界各地个体如何相互关联的完整地图。
到目前为止,这一愿景的主要挑战是找到一种方法来组合来自许多不同数据库的基因组序列,并开发算法来处理这种规模的数据。然而,牛津大学大数据研究所的研究人员现在发布了一种新方法,可以轻松地组合来自多方的数据并进行扩展,以适应数百万个基因组序列。
新研究整合了来自8个不同数据库的现代和古代人类基因组数据,包括来自215个人群的总共3609个个体基因组序列。古代基因组包括在世界各地发现的年龄从1000到100000岁不等的样本。算法预测了进化树中必须存在共同祖先的位置,以解释遗传变异的模式。由此产生的网络包含近2700万个祖先。
在这些样本基因组上添加位置数据后,研究人员使用该网络来估计预测的共同祖先居住的地方。最终结果是,成功地重现了人类进化史上的关键事件,包括走出非洲。
研究小组表示,后续将通过继续整合可用的遗传数据,使家谱图更加全面。由于树序列以高效的方式存储数据,因此数据集可轻松容纳数百万个额外的基因组。
研究作者黄燕博士说:“这项研究正在为下一代DNA测序奠定基础。随着现代和古代DNA样本基因组序列质量的提高,树序列将变得更加准确,我们最终将能够生成一张统一的图谱,解释我们今天看到的所有人类遗传变异的起源。”