MrTiung MrTiung 祖源分析

wegene数据转23andme数据的尝试

本来想试一下dna.land的,结果发型墙内上不了dna.land.........
试了下gedmatch,虽然,去掉了wegene所有的定制位点,但是结果还是和原来一样,有1+%的非洲
捕获.PNG
2017-08-11 • IP属地中国
按热门排序    按默认排序

16 个回复

dna.land经测试成功,看来伪装是成功了一部分,可以骗过gedmatch和dna.land,但是无法骗过myheritage
费力科思 - WeGene勤杂工
给一个我的思路
 
把WeGene的原始数据转换成23andme的数据,要解决的问题:
1. 23andme的数据是有5个版本的,从V1到V5。V5是刚刚出来,很多第三方也不支持,V4用了很多年,用得比较多。现在建议以V4为转化目标。
2. 修改rawdata的头部注释信息。很多第三方应用都会验证原始数据txt文件头部的注释信息,这个肯定要改成跟23andme一样的。
3. 修改数据中的SNP列表。WeGene跟23andme的rawdata是有区别的,把两者重叠的部分全部保留。
4. 剩下的是23andme数据中有,而WeGene数据中没有的位点。这部分有几种处理方法,根据我自己的看法,从易到难罗列一下:
4.1 全部标为未检出:这显然是最简单的,但是会损失很多信息,有些第三方应用也会提示数据的nocall rate太高。
4.2 全部用中国人的高频基因型填充:根据千人基因组项目的SNP frequency信息,把中国人群的高频基因型填充进去。这个方法也可以细化一点,比如根据CHB和CHS对南方和北方的数据做不同的处理。
4.3 先用WeGene原始数据中所有的位点,用千人的Chinese做参考数据集,对23andme多测的那些位点的结果做imputation,把impute中info值比较高的位点的impute结果填充进去,impute效果不好的点用未检出填充。
 
从合理性来说,4.3是最好的
做了两份数据,已经上传到myheritage,一份是所有缺少的位点一律未检出,另一份以一个台湾网友的位点代替
更新myheritage
可以看到,套件号是m开头,而不是w开头了
如果,有需要转23andme格式的人,可以联系我,我正好需要测试一下,这个应用是否成功
您好,可否把程序拿到兰海论坛共享下载呢?
费力科思 - WeGene勤杂工
去掉定制位点是什么意思?
费力科思 - WeGene勤杂工
你用的数据是刚从网站下载的吗?
费力科思 - WeGene勤杂工
做个应用吧:)
这个不错
kaji -
你好,楼主能帮我转一下吗?
我自己的也出来了

要回复问题请先登录注册