飘逸的EDAR基因 飘逸的EDAR基因 - RXZlcmxhc3Rpbmc= 综合讨论组

质疑K47计算器的东亚标杆——几乎没有人的K47东亚成分可以超越60%?

相信测过基因的伙伴们,一定有人跑过微解读里的K47祖源计算器,也比较过其他人的结果。除了微解读,在 Admixture Studio 里也可以找到K47(即 LM Genetics K47,它不在 GEDmatch 中),而且还能看到基因位点的利用情况。那么,东亚(East_Asian)标杆到底代表了什么人群?
打开 Admixture Studio 的路径,找到加载出来的K47计算器文件(如果是第一次跑的话,需要在软件中跑来下载计算器文件,不然没有),里面有一个K47_Template.xlsx的文件,打开它,打到第三个,里面有K47曾设置的部分标杆的参考人群,我们可以借此找到东亚标杆的代表:

47.png

 
如果排除文件的翻译问题,Ham 应该是 Han——K47 的 East_Asian 以国内汉族、韩国人为参考。后者还好理解,在东亚范围内,韩国人的内部差异较小;而前者值得质疑,因为汉族的内部差异也不小,在研究时候还经常分南、北汉来看,那么,K47 的 East_Asian 参考的汉用的是南汉还是北汉?
 
首先我先挑选两个HGDP的汉族样本 HGDP00811、HGDP01294 的数据来跑K47,于是有了以下前所未见的结果:

00811k47.png
01294k47.png

 
没错,出现了90%以上的东亚成分,社区里应该找不到不知更纯的了。考虑到可能存在一些干扰,于是我又使用E11、K12b计算器进行验证:
1.首先是HGDP00811的

00811.png

 
2.然后是HGDP01294的

1294.png

 
看来这个标杆同时包括了南北汉都有的结果,于是我把HGDP的汉族数据都跑一遍来作进一步观察,截图如下:

1.png

 
发现这不是偶然,HGDP的汉族样本几乎一致地出现了极其罕见的K47东亚成分超过85%以上的情况,甚至有的达到了100%东亚。E11结果也证实了K47东亚标杆南北兼备的特征(南汉的E11傣族标杆会相对偏高):

4.png

 
如果把样本换成千人基因组的汉族数据的话,又会是什么情况?为了解惑,我也批量跑了千人组数据的。如下是CHS和CHB样本的K47主成分截图:

2.png
3.png

 
这时又是和其他人测序结果的K47相似的常见情况——多种主成分共存的百分比数字结构,很少有数据再和HGDP汉族数据样本类似。看来,K47东亚里面的汉族标杆应该是以HGDP的汉族数据为基准,而不是千人组的来源为基准。所以,K47的东亚数值仅代表和个体和HGDP汉族的相似度,这项数值很高的话既可能偏南也可能偏北。然而从微观角度来看,K47的大致位置区分仍需要依靠一些小成分来完成。
 
现在已知晓,这些结果看似超纯的HGDP汉族样本(作为原始志愿者样本之一)被用作了计算器的标杆,导致了“计算器效应(Calculator Effect)”。“计算器效应”意味着计算器结果适用于每个项目中包含的原始志愿者样本,但其他所有用户都会得到所属族群中成分数值较低的结果,轻则只少百分之几,重则少50%以上。
 
#内容修改于2022-9-29
2021-03-17 • IP属地通辽
按热门排序    按默认排序

14 个回复

飘逸的EDAR基因 - RXZlcmxhc3Rpbmc=
此补处充E11的CHS和CHB结果的截图以供进一步理解:
QQ截图20210317000239.png

QQ截图20210317000253.png

注:Admixture Studio 的默认列表本身没有E11计算器,这是用上述软件的Advanced Mode (*PRO)模式加载E11计算器并批量跑出来的结果。
标杆太单一了,再添加一些西北南的就好了
为什么小姐 - 好奇宝宝
我44%
我看山东人这一项比较高,会不会取样在山东。
有点意思
发几个韩国科研样本:
Kim Seong-jin
47 ancestral populations     76267 total SNPs
         1 flipped SNPs
     22990 heterozygous SNPs
         3 no-calls
         3 absent SNPs
  0.999921 genotype rate
      mode genomewide
     6 SNPs missing (no-call or absent)

Component    %    
Tibeto-Burman    3.66%    
Proto-Austronesian    2.27%    
North-Amerind    0.35%    
Indo-Chinese    0.03%    
Mongolian    9.70%    
East-Asian    44.10%    
Amuro-Manchurian    17.52%    
South-African_HG    0.06%    
South-Chinese    22.30%   
 
AK1
47 ancestral populations
     76267 total SNPs
         1 flipped SNPs
     23547 heterozygous SNPs
         4 no-calls
        45 absent SNPs
  0.999358 genotype rate
      mode genomewide
    49 SNPs missing (no-call or absent)

Component    %    
Tibeto-Burman    1.35%    
Turkic-Altai    0.01%    
Proto-Austronesian    2.46%    
Nilotic    0.04%    
Mongolian    10.71%    
Siberian    0.02%    
East-Asian    41.75%    
Amuro-Manchurian    13.79%    
South-Chinese    29.87%    
 
KOREF
47 ancestral populations
     76267 total SNPs
         1 flipped SNPs
     23882 heterozygous SNPs
         0 no-calls
         1 absent SNPs
  0.999987 genotype rate
      mode genomewide
     1 SNPs missing (no-call or absent)

Component    %    
Tibeto-Burman    3.10%    
Proto-Austronesian    5.00%    
Indo-Chinese    0.01%    
Mongolian    11.28%    
East-Asian    42.72%    
Amuro-Manchurian    16.16%    
Amazonian    0.22%    
South-Chinese    21.50%    
 
 
 
 
支持
我的跑出来又南又北

占比 %
东亚36.24%
中国南方人25.11%
蒙古人17.74%
藏缅族群9.42%
原始南岛人5.22%
马来人3.09%
阿尔泰人1.59%
中南半岛人1.27%
亚马逊0.01%
巴布亚0.01%
 
韩国人居然一点“NE-Asian”都没有,我一个云南人都有一丢丢
东亚 42.986 %
中国南方人 24.671 %
通古斯语族群 10.717 %
蒙古人 8.225 %
藏缅族群 6.081 %
原始南岛语族群 5.213 %
阿尔泰人 1.577 %
北美印第安人 0.395 %
安第斯山人 0.097 %
东亚 42.676 %
中国南方人 29.391 %
蒙古人 9.980 %
原始南岛语族群 8.241 %
通古斯语族群 4.828 %
藏缅族群 4.322 %
亚马逊人 0.431 %
西地中海 0.092 %
我的。。。
只要看里面的马来人就能分别南汉还是北汉呀,超过1.5%的九成九都是南方人。
猜猜我是哪的

东亚 42.212 %
中国南方人 30.748 %
蒙古人 11.915 %
通古斯语族群 8.589 %
藏缅族群 5.465 %
原始南岛语族群 0.911 %
尼罗河流域语族群 0.073 %
楚瓦什人 0.047 %
阿尔泰人 0.001 %
您好!请问,里面的西芬兰人,西伯利亚人,阿拉伯人,西地中海人,帕米尔人,大体是什么人呢?

要回复问题请先登录注册