BioStar BioStar 祖源分析

【祖源趣闻】四成的中国人源自新石器时代的三个老祖宗

文/WeGene首席科学家 王传超
 
人口变迁是我们解读人类历史的时所关注的中心问题之一,强烈的群体扩张很可能与气候变化、社会结构变化或科技进步有关。新近兴起的二代测序技术使得我们能够使用全基因组数据去系统性地探究人群历史,所以我们可以对影响人群有效群体大小和以遗传结构的不同因素重新进行评估。近来,线粒体基因组的研究显示东亚和欧洲的母系的人口扩张开始于新石器时代之前,这就与农业是人群扩张的原始驱动力这一假设矛盾。在此基础上,我们非常有兴趣去探究父系的扩张模式。

Y染色体上有人类基因组里最长的非重组区段,人类Y染色体DNA大约包含六千万个碱基对,其中染色体两端的5%为拟常染色体区域,在传代过程中与X染色体相应区段会发生重组,而主干部分的95%为非重组区域,不与任何染色体发生重组,这就使得Y染色体成为了重构人群和父系的遗传关系、估算重大进化和人口事件的时间的有力工具。然而,Y染色体的测序数据还很缺乏,千人基因组虽然测序了多个族群的共千余Y染色体,但其覆盖度太低,比如东亚样本Y染色体的测序深度平均还不足1.4x。

依照现有的Y染色体谱系树,全球的男性都可以被划分到20个主干单倍群或复合单倍群里,编号从A到T。几乎全部的非洲之外的Y染色体在M168这个SNP上都是突变型,属于其下的DE、C或F这三个超级单倍群,非常支持现代人走出非洲学说,但现代人走出非洲的时间却存在分歧,有3.9万年、4.4万年、5.9万年、6.85万年、甚至达到5.7-7.46万年。

为了能获得高覆盖度的Y染色体非重组区序列并使样本有足够代表性,我们选取了涵盖欧亚大陆东部常见单倍群O、C、D、N和Q以及欧亚西部常见的单倍群J、G和R的110个样本,使用混合捕获的方法对Y染色体的非重组区进行测序。

我们在全部样本的Y染色体里共发现了近4500个碱基置换突变,其中有4300多个SNP位点没有被命名过,我们以F字母(代表复旦)开头给这些位点命名。我们按照至少在100个样本里有1x覆盖度这个标准,选取了约3.9M质量较好的序列,在此区域内有约3600个SNP。我们用其中的78个高质量序列构建了最大简约树,该进化树的拓扑结构与已有的人类Y染色体谱系树是一致的。我们构建了进化树包含了来自单倍群C、D、G、J、N、O、Q和R的样本,因此很好地代表了出非洲的三大支系:C、DE和F。除了已知支系,我们还发现了许多下游的支系。进化树上早期的分支都是二叉的,但我们在O3a-M324下也发现了三个星状结构,也就是由同一个结点分出多个支系,这代表着强烈的人口扩张事件。
1144205wmimzmfob5cbwwm.png.jpeg

我们使用贝叶斯方法和1x10-9突变/每年这一家系突变率计算了进化树上每一次分支事件的时间。现代人出非洲后的第一次分支事件,也就是单倍群DE和单倍群CF分开的时间是5.41万年(95%的CI:5.06-5.82),落在了之前研究所给出的范围内。在选取的3.9M的区域内,我们在DE/CF和C/F分支之间只发现了3个SNP位点,这表明DE、C和F很可能是在一千年内相继产生的。自单倍群F和C分开之后,在1.8万年的时间内我们都没有看到F支系里有大的分支事件,表明F支系经历了强烈的瓶颈效应。值得注意的是全部的初级单倍群,也就是G, J, N, O, Q和R都是在末次冰期前(约2万年前)分支出来的,并且大部分现在已知的欧亚大陆东部支系是在旧石器时代晚期(1万年前)产生的。进化树上7千年前的分支都是二叉的,这表明在旧石器时代缓慢的群体增长率、瓶颈效应或遗传漂变淘汰了大部分曾经存在过的支系。

在我们构建的Y染色体进化树上最惊人是在O3-M324下发现了三个星状扩张,既是在M117下游、M134xM117复合单倍群的下游以及002611下游,我们将其依次命名为Oα、Oβ和Oγ。鉴于我们在选择样本进行高通量测序的时候就已考虑了样本的全面性和代表性,那么星状扩张就表明这些父系支系在很短的时间内(500年内)成功扩张。这三个支系在现在的大部分东亚族群里的频率都很高,总共占到了现今全部汉族的40%,其中Oα占到16%、Oβ占11%、Oγ能占到14%,也就是说现在大约有3亿男性是新石器时代晚期三个男人的父系后裔。这三个支系的扩张时间分别是5400、6500和6800年前,而中国北方全面转入农业阶段的时间也正好是6800年前,也与黄河中游的6900-4900年前的仰韶文化、黄河上游6000-4900年的马家窑文化以及黄河下游7400-6200年前的北辛-6200-4600年前的大汶口文化等的时间相契合。由此,我们认为这三个在新石器时代晚期快速扩张的支系奠定了东亚的父系遗传基础。因这次测序的汉族里的M117+的样本全部是在Oα的扩张支系里的,M117+及其下游支系又在藏缅族群里有中等甚至非常高的频率分布,如果我们能够进一步厘清其他族群里的M117+是何时与汉族中的此支系分开的,以及这些族群里的M117+是否也属于扩张的Oα支系等问题,那么对于理解汉藏语系的起源和早期演变历史有着极其重要的意义。

我们的研究还表明像单倍群O-M175、C-M130等有过强烈人口扩张的Y染色体支系早在2万年前就已到达东亚,这些单倍群在来东亚之后才开始其新石器时代的扩张,也就是说中国的农民是本土扩张的,与中国农业的本土起源是一致的。这与欧洲的情形不一样,欧洲的农业是由中东的农民扩张而带入的,同样地,欧洲现有的大部分Y染色体支系也是由中东农民贡献的。

Citation: Yan Shi, Wang Chuan-Chao, Zheng Hong-Xiang, Wang Wei, Qin Zhen-Dong, Wei Lan-Hai, Wang Yi, Pan Xue-Dong, Fu Wen-Qing, He Yun-Gang, Xiong Li-Jun, Jin Wen-Fei, Li Shi-Lin, An Yu, Li Hui, Jin Li (2014)Y Chromosomes of 40% Chinese Descend from Three Neolithic Super-Grandfathers. PLoS ONE 9(8): e105691.

此文来自科学网王传超博客
 
2015-10-19 • 深圳市, 广东, 中国
按热门排序    按默认排序

12 个回复

wang - 哈佛医学院、德国马普所分子人类学博士后
我们的芯片就涵盖了上述论文发现的位点,以及其他未发布的中国人群特异Y染色体位点,能够起到精细区分族群、甚至家族。
chengang - WeGene勤杂工
这个落款不应该是WeGene首席科学家王传超么?@wang
lili_blue - 懒,没有介绍
Wang CC可是发过Science一作的,大写的服
1234
002611东夷建立了商朝,商灭亡后流落到到东北朝鲜半岛,变成高句丽人、东北女真人的祖先之一,参与建立高句丽,继续与隋唐战斗,原来东夷002611与炎黄M117+M134是世仇啊?
能分析出来属于哪个超级祖先的后人最好。
下方评论更加有趣。。。你们自己人能不互相斗闷子嘛。。。
家里那位进化生物学家说,这么好的数据发Plos One,太浪费了,至少得奔MBE去啊,加油!
是这个意思吗?按时间,002611在黄河下游山东河北发展,M117xM134在上游陕甘发展,接着M117在中游中原河南山西发展,西部与中部关联多些。
传说中的农民甲乙丙:)
刘贺属于三大祖先的那一只?
传说中的黄帝,炎帝,蚩尤。难怪中国人自称炎黄子孙是有科学依据的

要回复问题请先登录注册