
质疑K47计算器的东亚标杆——几乎没有人的K47东亚成分可以超越60%?
相信测过基因的伙伴们,一定有人跑过微解读里的K47祖源计算器,也比较过其他人的结果。除了微解读,在 Admixture Studio 里也可以找到K47(即 LM Genetics K47,它不在 GEDmatch 中),而且还能看到基因位点的利用情况。那么,东亚(East_Asian)标杆到底代表了什么人群?
打开 Admixture Studio 的路径,找到加载出来的K47计算器文件(如果是第一次跑的话,需要在软件中跑来下载计算器文件,不然没有),里面有一个K47_Template.xlsx的文件,打开它,打到第三个,里面有K47曾设置的部分标杆的参考人群,我们可以借此找到东亚标杆的代表:
如果排除文件的翻译问题,Ham 应该是 Han——K47 的 East_Asian 以国内汉族、韩国人为参考。后者还好理解,在东亚范围内,韩国人的内部差异较小;而前者值得质疑,因为汉族的内部差异也不小,在研究时候还经常分南、北汉来看,那么,K47 的 East_Asian 参考的汉用的是南汉还是北汉?
首先我先挑选两个HGDP的汉族样本 HGDP00811、HGDP01294 的数据来跑K47,于是有了以下前所未见的结果:
没错,出现了90%以上的东亚成分,社区里应该找不到不知更纯的了。考虑到可能存在一些干扰,于是我又使用E11、K12b计算器进行验证:
1.首先是HGDP00811的
2.然后是HGDP01294的
看来这个标杆同时包括了南北汉都有的结果,于是我把HGDP的汉族数据都跑一遍来作进一步观察,截图如下:
发现这不是偶然,HGDP的汉族样本几乎一致地出现了极其罕见的K47东亚成分超过85%以上的情况,甚至有的达到了100%东亚。E11结果也证实了K47东亚标杆南北兼备的特征(南汉的E11傣族标杆会相对偏高):
如果把样本换成千人基因组的汉族数据的话,又会是什么情况?为了解惑,我也批量跑了千人组数据的。如下是CHS和CHB样本的K47主成分截图:
这时又是和其他人测序结果的K47相似的常见情况——多种主成分共存的百分比数字结构,很少有数据再和HGDP汉族数据样本类似。看来,K47东亚里面的汉族标杆应该是以HGDP的汉族数据为基准,而不是千人组的来源为基准。所以,K47的东亚数值仅代表和个体和HGDP汉族的相似度,这项数值很高的话既可能偏南也可能偏北。然而从微观角度来看,K47的大致位置区分仍需要依靠一些小成分来完成。
现在已知晓,这些结果看似超纯的HGDP汉族样本(作为原始志愿者样本之一)被用作了计算器的标杆,导致了“计算器效应(Calculator Effect)”。“计算器效应”意味着计算器结果适用于每个项目中包含的原始志愿者样本,但其他所有用户都会得到所属族群中成分数值较低的结果,轻则只少百分之几,重则少50%以上。
#内容修改于2022-9-29
打开 Admixture Studio 的路径,找到加载出来的K47计算器文件(如果是第一次跑的话,需要在软件中跑来下载计算器文件,不然没有),里面有一个K47_Template.xlsx的文件,打开它,打到第三个,里面有K47曾设置的部分标杆的参考人群,我们可以借此找到东亚标杆的代表:
如果排除文件的翻译问题,Ham 应该是 Han——K47 的 East_Asian 以国内汉族、韩国人为参考。后者还好理解,在东亚范围内,韩国人的内部差异较小;而前者值得质疑,因为汉族的内部差异也不小,在研究时候还经常分南、北汉来看,那么,K47 的 East_Asian 参考的汉用的是南汉还是北汉?
首先我先挑选两个HGDP的汉族样本 HGDP00811、HGDP01294 的数据来跑K47,于是有了以下前所未见的结果:
没错,出现了90%以上的东亚成分,社区里应该找不到不知更纯的了。考虑到可能存在一些干扰,于是我又使用E11、K12b计算器进行验证:
1.首先是HGDP00811的
2.然后是HGDP01294的
看来这个标杆同时包括了南北汉都有的结果,于是我把HGDP的汉族数据都跑一遍来作进一步观察,截图如下:
发现这不是偶然,HGDP的汉族样本几乎一致地出现了极其罕见的K47东亚成分超过85%以上的情况,甚至有的达到了100%东亚。E11结果也证实了K47东亚标杆南北兼备的特征(南汉的E11傣族标杆会相对偏高):
如果把样本换成千人基因组的汉族数据的话,又会是什么情况?为了解惑,我也批量跑了千人组数据的。如下是CHS和CHB样本的K47主成分截图:
这时又是和其他人测序结果的K47相似的常见情况——多种主成分共存的百分比数字结构,很少有数据再和HGDP汉族数据样本类似。看来,K47东亚里面的汉族标杆应该是以HGDP的汉族数据为基准,而不是千人组的来源为基准。所以,K47的东亚数值仅代表和个体和HGDP汉族的相似度,这项数值很高的话既可能偏南也可能偏北。然而从微观角度来看,K47的大致位置区分仍需要依靠一些小成分来完成。
现在已知晓,这些结果看似超纯的HGDP汉族样本(作为原始志愿者样本之一)被用作了计算器的标杆,导致了“计算器效应(Calculator Effect)”。“计算器效应”意味着计算器结果适用于每个项目中包含的原始志愿者样本,但其他所有用户都会得到所属族群中成分数值较低的结果,轻则只少百分之几,重则少50%以上。
#内容修改于2022-9-29
14 个回复
注:Admixture Studio 的默认列表本身没有E11计算器,这是用上述软件的Advanced Mode (*PRO)模式加载E11计算器并批量跑出来的结果。
赞同来自: shuzam87
赞同来自: shuzam87
赞同来自: 飘逸的EDAR基因
赞同来自: 飘逸的EDAR基因
赞同来自: 飘逸的EDAR基因 、shuzam87
Kim Seong-jin
47 ancestral populations 76267 total SNPs
1 flipped SNPs
22990 heterozygous SNPs
3 no-calls
3 absent SNPs
0.999921 genotype rate
mode genomewide
6 SNPs missing (no-call or absent)
Component %
Tibeto-Burman 3.66%
Proto-Austronesian 2.27%
North-Amerind 0.35%
Indo-Chinese 0.03%
Mongolian 9.70%
East-Asian 44.10%
Amuro-Manchurian 17.52%
South-African_HG 0.06%
South-Chinese 22.30%
AK1
47 ancestral populations
76267 total SNPs
1 flipped SNPs
23547 heterozygous SNPs
4 no-calls
45 absent SNPs
0.999358 genotype rate
mode genomewide
49 SNPs missing (no-call or absent)
Component %
Tibeto-Burman 1.35%
Turkic-Altai 0.01%
Proto-Austronesian 2.46%
Nilotic 0.04%
Mongolian 10.71%
Siberian 0.02%
East-Asian 41.75%
Amuro-Manchurian 13.79%
South-Chinese 29.87%
KOREF
47 ancestral populations
76267 total SNPs
1 flipped SNPs
23882 heterozygous SNPs
0 no-calls
1 absent SNPs
0.999987 genotype rate
mode genomewide
1 SNPs missing (no-call or absent)
Component %
Tibeto-Burman 3.10%
Proto-Austronesian 5.00%
Indo-Chinese 0.01%
Mongolian 11.28%
East-Asian 42.72%
Amuro-Manchurian 16.16%
Amazonian 0.22%
South-Chinese 21.50%
赞同来自: 飘逸的EDAR基因 、atlanc 、张瀚元 、WeGene_E1B36B58
赞同来自: 飘逸的EDAR基因
占比 %
东亚36.24%
中国南方人25.11%
蒙古人17.74%
藏缅族群9.42%
原始南岛人5.22%
马来人3.09%
阿尔泰人1.59%
中南半岛人1.27%
亚马逊0.01%
巴布亚0.01%
赞同来自: 阿克塞的燕子
赞同来自:
中国南方人 24.671 %
通古斯语族群 10.717 %
蒙古人 8.225 %
藏缅族群 6.081 %
原始南岛语族群 5.213 %
阿尔泰人 1.577 %
北美印第安人 0.395 %
安第斯山人 0.097 %
赞同来自:
中国南方人 29.391 %
蒙古人 9.980 %
原始南岛语族群 8.241 %
通古斯语族群 4.828 %
藏缅族群 4.322 %
亚马逊人 0.431 %
西地中海 0.092 %
我的。。。
赞同来自:
赞同来自: 基因心片海鹏奏
东亚 42.212 %
中国南方人 30.748 %
蒙古人 11.915 %
通古斯语族群 8.589 %
藏缅族群 5.465 %
原始南岛语族群 0.911 %
尼罗河流域语族群 0.073 %
楚瓦什人 0.047 %
阿尔泰人 0.001 %
赞同来自: 基因心片海鹏奏
赞同来自:
要回复问题请先登录或注册