mxlever mxlever 祖源分析

请教大侠,如何利用Y-STR和Y-SNP计算TMRCA,利用它们计算分别有什么优缺点?

2016-07-29 • IP属地上海
按热门排序    按默认排序

2 个回复

wang - 哈佛医学院、德国马普所分子人类学博士后
社区的话题逐渐科研化啊!
 
Y染色体上的突变形成的个体差异主要有两大类,单核苷酸多态(SNP)和短串联重复(STR)。DNA分子由四种碱基(A、T、C、G)按照一定的顺序连接而成,SNP是仅仅一个位置上的碱基类型变化。Y染色体上的同一个SNP在人群中一般只有两种类型。STR则是在染色体的特定区段,由几个碱基组成一个单位重复出现,不同的Y染色体上的同一个STR位置往往有不同的重复拷贝数。SNP和STR由于突变性质和突变速度不同,在分析中有着不同的用途。SNP突变因为突变速率极低,可以做到在后代中永久地保留,后代只能在祖先的突变基础上积累新的突变,而不会丢失祖先的突变特征。通过比较人类与黑猩猩的Y染色体差异,以及大家系中的Y染色体的差异程度,Y染色体上的SNP突变的速率被计算了出来。每出生一个男子,一个染色体位置上发生SNP突变的概率为大约三千万分之一。实际上由于Y常染色质区的保守性,以及人类历史上大量男子都没有男性后代保留至今的事实,实际的群体中突变率应该低几个数量级。而我们通常研究的是Y染色体非重组区大约三千万个碱基对的常染色质区,按照每个碱基对三千万分之一的突变率,这个区段内每个男子平均都会有一个新的突变。这个新的突变随机地出现在Y常染区的任意一个点上,如果这个突变了的点上再发生一次突变,那么这个突变就在后代中丢失了,我们就无法通过后代确定祖先的Y染色体突变谱。但是同一个点上先后发生两次突变的概率,按照概率计算方法就是三千万分之一的平方,也就是九百万亿分之一,相对于人类自古以来的人口,这个概率就近似于零。所以我们可以说,绝大多数情况下,祖先的Y染色体上出现的SNP突变特征在后代中能够找到,而后代只能在祖先Y染色体突变谱的基础上增加新的突变。利用Y染色体上稳定遗传的SNP,我们可以构建出个体或家族之间明确的遗传渊源。而且,既然SNP有稳定的突变速率,当我们统计出不同人的Y染色体之间的突变差异数,将差异数除以速率,经过换算就可以估算两条Y染色体之间的分化时间。但是,由于SNP的突变速率实在太低,个体之间的突变差异散布在Y染色体的各处,只能使用Y染色体全测序来寻找,而目前全测序的成本太高,尚不能普遍应用。这一缺点被Y染色体上的另一遗传标记STR弥补了。一些STR位点分布在Y染色体上的固定位置,每一个STR位点内部的重复单位在传代过程中改变着拷贝数,这种改变也是有着固定的速率的。而STR突变速率要比SNP大得多,在家系中每出生一个男子每个STR位点突变概率大约是三百分之一。一般的Y染色体分析中,我们调查15个STR位点,那么总体突变率就大约是二十分之一。而Y染色体上大约有150个4至6个核苷酸重复的STR,如果分析全部的STR位点,那么总突变率大约就是二分之一。这一高突变率就非常有利于估算不同Y染色体之间的分化时间,因此STR位点成为了Y染色体上的“时钟”。STR的突变是双向性的,拷贝数可以增加或减少。有同一祖先的不同个体的同一STR位点,可能有不同突变方向和重复数。同SNP一样,数个不同位置上的STR也可以构成单倍型。在群体中分析STR单倍型的多样性程度可以计算群体的共祖时间。
 
Y-STR计算TMRCA的常用方法是ASD法,参考Zhivotovsky et al 2001,Sengupta 2006.需要先计算:
Mean
Median
V(VARP)
D
tD
TD
这几个函数。Mean是你要计算的某一单倍型的某一位点的STR变异次数的AVERAGE函数,Median是这一位点的中值(Median函数),V(VARP)是该位点的无偏估计方差(VARP函数),然后计算D=(Mean - Median)power2 +V(VARP),(power2是2次方),D是每个STR位点一个值,然后计算你所有STR的D值的平均tD值(AVERADE(D)),TD=tD*25/0.00069,SE=STDEV(D),计算和TD一样过程。
 
Y-STR计算TMRCA的另一方法是BATWING:Bayesian analysis of trees with internal node generation,需要设定initial effective population size (N), population growth rate per generation (α), the time in coalescent units when exponential growth (β) began was used gamma (2, 1) ,最后TMRCA由estimated population size N 与the height of the tree T (in coalescent units)相乘得出.
 
参考我的论文:Wang, Chuan-Chao, and Hui Li. "Evaluating the Y chromosomal STR dating in deep-rooting pedigrees." Investigative genetics 6.1 (2015): 1.
 
Y-SNP计算TMRCA的方法有很多,比如用BEAST (Bayesian MCMC).用SNP的主要问题在于如何选用突变率,选用家系突变率还是进化突变率等,两者差别还是蛮大的,现在学界也不清楚哪个突变率更适合。参考我的论文:Wang, Chuan-Chao, et al. "Evaluating the Y chromosomal timescale in human demographic and lineage dating." Investigative genetics 5.1 (2014): 1.
 
Y-STR和Y-SNP计算TMRCA的比较请参考我的论文:Wang, Chuan-Chao, and Li Hui. "Comparison of Y-chromosomal lineage dating using either evolutionary or genealogical Y-STR mutation rates." bioRxiv (2014): 004705.
 
 
 
cedre - -----------------------------------------------------------
可以参考王大神的此文
Convergence of Y Chromosome STR Haplotypes from Different SNP Haplogroups Compromises Accuracy of Haplogroup Prediction
 
还有一片文章是对比str方法和全序方法共祖时间差异的,但忽然想不起在哪里了

要回复问题请先登录注册