2017personalse 2017personalse 祖源分析

搜集了点祖源资料#分享

收到了wegene的结果一周了,感觉报告有点太简约了,可能由于专业所以简约,但是有很多看起来其实是常识的但像我这样的就是不知道呀,就像读论文发现只有实验结果和结论,少了前言(背景介绍)跟分析与展望啊。搜集了点资料,帮助理解报告内容,但由于我水平有限,理解和传递信息难免会有错误,欢迎大家指正。
参考资料:

《Y染色体、mtDNA多态性与东亚人群的遗传结构》,文波,博士论文

《Y染色体揭示的早期人类进入东亚和东亚人群特征形成过程》,蔡晓云,博士论文

《中国西部人群的遗传混合》,陆燕,博士论文

严实博士的新浪博客《人类学杂记》栏目:http://blog.sina.com.cn/s/blog_465ddf790101he1a.html

知乎李雷的回答:https://www.zhihu.com/question/34617581

首先是现代人怎么来的?最早多地区分别起源学说占主流,我记得小时候被教科书蒙骗,一直以为元谋人之类的是中国人的祖先;现代的分子生物学证据认为不管白人黑人黄种人,大家都是非洲来的#本来对非洲起源还有点怀疑的,但每次开炉石卡包的时候就知道自己是非洲人没跑了#。 
原始社会里有很多原始人#这不废话么#,它们绝大多数已经灭绝了,只剩下现代智人这一支一直繁衍到了现在。尼安德特人由于分离时间晚,化石证据显示在灭绝前仍和现代智人生活在同一时代;可能有迷之审美的智人与尼人进行了深切地交流,使得尼人的基因序列留传至今;根据群体遗传学,基因交流的有效单位应该是群体,所以也有可能是一群迷之审美的智人,画面感人。。。
2017-12-07_19-43-34屏幕截图.png

在2010年,Green等对克罗地亚一个洞穴中发现的3个尼安德特人的骨骼提取的基因组DNA进行测序,公布了尼人约60%基因组的序列图,并将尼人基因组于现代人基因组进行比较得出结论尼安德特人与非洲以外现代人的关系,比与非洲人的关系更密切,并认为现代人基因组中有1%-4%的序列来自尼安德特人的贡献,现代人在走出非洲后可能在中东曾和尼人有过小范围的基因交流。


最早尼人被认为是欧洲人的祖先,但分子人类学无情地告诉他们虽然白但是还是非洲的一支哟。当东亚出土了大量连续进化的古人类化石时,支持多地区进化的人又开心地跳了起来,但有一个问题是在中间有一个几万年的化石断层。
2017-12-07_21-13-22屏幕截图.png

这个断层时间与距今5—10万年前第四纪冰川期在该地区存在时间大体相符,使得这一时期包括中国大陆在内的东亚地区大量的生物种类均难以存活,因而东亚大陆在这一时期大量的生物物种灭绝造成了这种断层。

所以,冰川期来了,东亚的原住民灭绝了,而后从非洲来的智人祖先们占下了这片土地。现代人走出非洲后,是如何入出东亚的呢?
很多研究认为,东亚现代人的迁徙源流有以下几条可能的路线:现代人走出非洲后,其中的一支在距今大约6万~1.8万年前,经南亚迁徙至东南亚,然后逐渐北上扩散至东亚大陆,有一部分继续北上经白令海峡迁移到美洲,还有一小部分则沿东南沿海从东南亚向东进入太平洋群岛;在现代人走出非洲后,有研究人员认为在较晚的时期可能有部分中亚人群从西向东迁移并与东亚人群交汇,还有一小部分则沿东北亚经白令海峡进入美洲大陆。
2017-12-07_21-49-46屏幕截图.png

大家都是从非洲溜出来的分子生物学证据是什么呢?

由于精子的竞争压力太大,携带不了更多遗传信息,就像战斗机作战要抛弃掉副油箱一样,所以精子不带线粒体DNA(mtDNA)。

mtDNA有如下优点:(1)mtDNA只在母亲和子女之间传递,呈严格的母系遗传,能记载母系基因的遗传史;(2)无重组,呈单倍体,在传代过程中不会象常染色体那样支离破碎,后代能完整地保存祖先的遗传信息;(3)有效群体大小(Effective Size)仅为核DNA的1/4,突变率为核DNA的10倍以上,这一方面使mtDNA能在较短时间内积累比较多的突变,另一方面容易形成人群特异的遗传标记,提高了mtDNA的信息量和分辨率;(4)每个细胞中存在数百乃至数千个拷贝,使mtDNA的检测比核DNA容易许多。


所以mtDNA是研究母系遗传的好材料。最早是通过RFLP方法(判断凶案现场的唾液血迹什么的是不是凶手留下的也是这个方法)对来自世界各地147个个体进行mtDNA研究,结果显示所有个体分为2枝,最古老的一只枝全部为非洲人,其他大洲和一部分非洲人的mtDNA分布在衍生的另外一大枝里。他们据此提出了著名的“非洲夏娃”学说。
由于测序技术的发展,现在可以用精度更高的snp来作为遗传标记研究起源。snp是单核苷酸多态性的简写,简单说就是某个碱基发生了突变#虽然加了简单说,但好像并没有容易理解多少#。

那不简单的说,高中生物告诉我们说,人的遗传信息由四种碱基ATCG(可以类比计算机存储信息时用二进制的01)组成,snp就是这些遗传信息书写时产生的一个错别字。比如一段DNA序列是AAAAAA(DNA是双链的,但另一条链可以通过碱基互补配对找出来,所以只写一条链),上面由于配子抄作业(遗传信息)的抄错(突变)了一个字母,变成了AAAATA,那么后代这一段的信息就会成为AAAATA,如果若干代以后,这一段又被抄错了,变成了AAAGTA,这些突变按照一定顺序依次发生,那么我们就可以通过跟踪这些突变来进行溯源。

由于人类是染色体是成对的,成对的染色体会发生同源重组(如果对高中课本里果蝇王子摩尔根还有印象的话,重组概念应该还记得吧),产生的配子可能会由于同源重组现象丢掉之前抄错的信息,这就导致无法追踪,所以要选用不重组的mtDNA来溯源,后面要说的Y染色体也是同样的道理。
世界人群mtDNA谱系关系的总体框架与Y染色体的系统树非常类似.最古老的L谱系只在非洲人中观察到,其中的L3分枝衍生出所有非洲以外的mtDNA谱系。非洲以外的所有mtDNA分为M和N两大分枝,其中N包括了所有西部欧亚特异的谱系(H、I、J、K、T、u等),东亚特异的A、B、R9,N9以及大洋州特异的P谱系也属于N分枝:M分枝下游的谱系分布在东非(M1),南亚(M2,M6)。大洋州(Q/M12)和东亚(C、D、G、M7、M8、M9等)的人群中。

南北方人群的mtDNA单倍群分布有明显差异,A、D、G、M8、M9和Y在北方的频率高于南方,这几种单倍群在南方和北方的频率总和分别为53.7%和29.6%:B、M7、N9和R9在南方频率比较高,分别包含了55%和23%的南北方mtDNA。这种差异在南北方汉族中依然存在。北方人群中的西部欧亚成分比南方高出20多倍(2.7%与0.1%)。

北方高频的A、C、D、G、M8a、z单倍群在北方的扩张时间比较久远。而南方高频的B、F、M7、N9a、R9等谱系在南方的扩张时间早于北方;M*单倍群在南方的扩张时间也早于北方。在南方频率相当高的B、R9单倍群的扩张时问最早,其时问与整个M单倍群的估计相当,K9下游的F和M下游的M7两个单倍群的扩张时问大概晚5千年左右。北方高频的C、D、G三个谱系的扩张时问几乎完全一样,比B、R9和M+的扩张时间晚大约一万年。A、N9a和R9b的扩张时间比较接近,比C、D、G的时间晚大约5千年。分布主要局限于北方的M8a和z两个单倍群的扩张时间最晚。
mtDNA虽然很棒,但存在些问题,就是它有着很高的突变率,提高了重复突变和平行进化的可能性;还是刚才AAAAAA例子,比如AAAATA和AAAGTA,看起来应该是有时间次序的,但是由于高突变率,它们可能是同时突变的,只是一个突变了一次,一个突变了两次,还有AAAATA回复突变为AAAAAA的可能;mtDNA还有异质性,有些个体会出现两种或两种以上类型的mtDNA,这就导致分类上的不准确。下面介绍的Y就比这个靠谱多了,不过想想也是,要是Y染色体突变率很高,那广大男同胞还用不用活了→ _→ 


Y染色体只能由父系遗传下来,并且Y染色体除了两端的拟常染色体区,其余大部分地方不发生重组,所以序列的变化只能靠突变,并且该位点重复突变的概率极低,所以通过Y染色体可以用来研究进化和迁移。

2017-12-07_21-04-01屏幕截图.png


105802hmz6p9xzfhjxz59z.jpg

由于对Y染色体累计数据更多了,发现之前分的O1/O2/O3中,O1和O2在F75位点上有突变,所以就把O1和O2合并了,O3变O2了。(http://blog.sina.com.cn/s/blog_465ddf790102vj8o.html

wegene也采用了ISOGG这种新分法,所以之前文献中说的O2可能和测出来的O2不是一个分类,需要注意下,下文文献中的O3-M122对应着O2-M122,03a3b-M7对应着O2a2a1a2,O3a3c-M134对应着O2a2b1。

O3-M122在东亚人群中占有优势地位,是南方来源族群的普遍类型,平均频率可以达到44.3%。Y染色体微卫星标记的数据表明,东亚南部的O3一M122多样性要高于东亚北部,表明该单倍群很有可能起源于南方;并且在大约两万五到三万年前开始在东亚向北迁徙,这与化石证据相当吻合。

在O3一M122的下游还有很多关乎东亚人群起源和迁徙的单倍群,比如说O3a3b-M7以及O3a3c-M134 。前者曾被发现在苗瑶族群里分布比较广泛,而在其他人群中非常罕见;并有报道认为O3a3b-M7很可能在苗瑶族群的祖先人群中发生,并由该单倍群的数据估计苗瑶族群至少在1-1.7万年前从“汉藏一苗瑶共同祖先"人群中分化并形成统一体。

而O3a3c-M134则在整个东亚地区都有广泛的分布,且频率较高,在东亚所有六个语系的群体中频率都大于10%,尤其在汉藏语系群体中,频率超过24%。O3a3c-M134在很多群体中,尤其是藏缅人群和老挝群体,携带该突变的个体大部分都属于其下游的O3a3c1一M117单倍群。
东亚南北遗传的差异:

苗瑶语系中苗族的父系和母系基因库中均有比较多的北方成分,而瑶族和畲族则为比较典型的南方人群。汉藏语系比较特殊,北方汉族和藏缓语民族(藏族、羌族等)为北方类型,而南方汉族和南方藏缅民族在近2千多年才从北方迁徙到南方,并与典型南方人群发生了广泛的基因交流,因此其遗传结构特点界于南北之间,并且在母系和父系遗传上存在差别。

在Y染色体主成分分析中,大多数汉族人群聚在一起并在总体上靠近北方,只有少数的南方汉族群体(广西、广东、湘西)比较靠近南方人群,而mtDNA的结果则显示南北方汉族与当地其它人群一起形成各自的聚类。有人根据这个就猜想,是不是北方汉族南侵,杀光了男人,只留下女人;我个人觉得倒不一定全都是这个原因,有可能是那个时代的北方汉族有着更高的生产力水平(科技树更高),姑娘们自然更倾慕高富帅,不断选择下北方汉族的Y染色体就变得更多。

wegene给我测的结果如下:

2017-12-09_10-18-47屏幕截图.png

看起来是个妥妥的汉族了#哎,还准备靠测snp翻案变少数民族,以后孩子能享受到加分政策呢#。由于汉族有几次扩张,有人认为汉族其实是占领了一个民族的地方,那个民族就变成了汉族,族群是文化上的,而不是血缘上的。研究发现汉族不仅仅是基于文化认同而形成的主体,从分子生物学也能找到证据说明汉族是血脉共通的。

2017-12-09_10-09-13屏幕截图.png

这个图来自于严实博士在《一席》的演讲,从图里可以看出不管是哪的汉族,其中有几个群的分布频率都是特别接近,是跟其他民族不一样的,所以汉族从这个角度来看也是一个整体。

汉族有三次大的南迁,对应历史可能是永嘉之乱、安史之乱和靖康耻。

v2-a4806adaf05984e9ff54ee921d112deb_hd.jpg

严实博士发现汉族可能存在三个超级祖先,大约40%的汉族可以直接追溯到这三个祖先上。根据积累的突变计算出这三个个体的年代,分别是大约6800、6500和5400年前。这三个年代正好分别对应考古文化中高庙文化、仰韶文化和红山文化鼎盛期的开始时间。
v2-9d06e7523e9512cb63a632d9f151fc3f_hd.jpg

要避免一个误区,就是常有人宣传O代表了汉族什么的,非O系列就不是汉族。比如我是汉族,为毛检出来的Y单倍群不是O,嘤嘤嘤,好气呀!这种情况应该算常见的,因为统计学本来就存在个体偏差,汉族大部分是O不代表非O不是汉族;比如上图严博士的那个表格,很多汉族都不是O;最重要的是,大家可不是靠着一条祖传Y染色体(还有22条常染色体和X呢)活到现在的,每一代的先祖都在遗传信息里留下了印记,所以单倍群不代表着族群,只是意味着可能存在共有祖先。连单倍群都不能代表,可想而知那些宣传汉族特有基因的是多可笑,事实上,测的snp还不是基因,只能算突变,谁愿意让突变代表谁代表去。

从wegene给的结果来看,跟我的预期符合的还可以,根据家里的老人讲,祖上是五代前从山东逃难来湖北;这几代在湖北经过通婚,血统里的北方成分被稀释,南方成分提高,所以出现了差不多一半的南方汉族成分,20%左右的北方汉族。但是8%的纳西/彝族怎么来的,湖北应该是土家族和苗族比较多吧,我还蛮期待测出苗族的成分呢,测成这样还怎么跟苗族水灵灵的小姑娘攀关系。还有14%的日本,excuse me?
但是,假设样本训练集和算法还挺可靠(存疑),还存在一个谁是‘源’谁是‘流’的问题,比如像尼人的基因还存在于现代人体内,除了像开头提到的审美成迷的现代智人娶了尼人,然后尼人的部分基因留传下来了的情况外,还有可能是尼人抓走了一些现代智人进行感人至深的交流,然后智人的基因混入了尼人中,测序发现的现代人体内的尼人基因其实是最早智人传给尼人的#是不是很绕#。

20171209122704_79272.jpeg

严实博士认为:由O3, O2b, D2三者在中日韩三国的分布比例,可以判定,人口流动基本就是中国->朝鲜半岛->日本这样单向流动的。我们甚至可以约略计算一下比例,即日本的父系有大约40%是本土的(D2和C1单倍群),大于30%是朝鲜半岛来的(至少包括O2b-M176),剩下不到30%是从其它地方来的(包括从中国或者东北亚,也包括从中国经过朝鲜半岛再到日本的)。而韩国除了30%左右是汉族地区极少的O2b,以及2%不到的D2和C1应该是从日本回流的以外(日本人历史上在朝鲜半岛有过多次殖民),其它成分之闲的相对比例都比较接近汉族,尤其是北方汉族的比例。表格中,汉族中比例明显比日韩偏高的单倍群,比如O1-M119以及O2*-M268(xM176)(含O2a1-M95),正好前者是东南沿海偏高的单倍群,而且自古如此(良渚文化在四五千年前即以O1-M119为主,Li H_2007),后者也包含一部分南方偏多的O2a1-M95。而我这个表格的汉族中,江浙沪的样本是偏多的,中国北方的O1仅4%左右,而华东有20%左右。我想这说明了,日本和韩国父系从中国过去的成分,大概是以北方为主的,并无明显的吴越影响痕迹。
所以日本成分可能是本身就从中国流出去的,如果真的是这样的话,wegene是不是考虑修正下算法,考虑到直接把14%划为汉族可能会使得有日本人用wegene时,出现很高的中国成分,引起国际纠纷什么的#其实我还是蛮期待的#,要不加个源/流权重因子什么的。当然,可能是我想多了,算法说不定已经考虑过这个问题了,改天找点文献再看看研究下原始数据。

提点建议:

祖源时间线的推测,先提出两个假设:1. 每种祖源成分都只来自于同一单一祖源成分的祖先。2. 平均每代会有 50% 的遗传物质遗传给下一代。大胆推测下可能的计算过程,代数=-log2(P)+1,其中P是指组源成分,有没有同学帮我验证下是不是这样算的,99.9%的单一祖源成分就算了。但是这两个假设一般应该都满足不了吧,这个会给人误导的,按照这个推测民族拿给家里老人看会被骂的#别问我怎么知道的#

2017-12-09_12-37-27屏幕截图.png

ISOGG的树好像更新了

2017-12-09_12-35-25屏幕截图.png


2017-12-09_12-35-46屏幕截图.png

 
2017-12-09 • IP属地杭州
按热门排序    按默认排序

4 个回复

辛苦了
你有14的日本,考虑到微基因日韩不的不清。你有14的朝鲜族,可以转朝鲜族,你的孩子可以有高考加分。微基因算的的现代人,没考虑古基因。
什么垃圾不成熟的研究?广东父系和广西父系大多数都不类聚的好吗?
为什么大部分的纳西和彝族血统基本上都是清末民初的时候加入进来的?有什么历史事件吗?

要回复问题请先登录注册