胆小的TSC2基因 综合讨论组

imputation扩展数据的有效性

自己把在两个公司测的(核心)位点和了一下,然后传上dnagenics做了个数据​扩展+祖源分析
 
整合拓展出来的结果,比单个公司的结果都更说得通很多……单个公司的结果里都有比较莫名其妙的成分,整合拓展之后的没有了。dnagenics而且可以出两种结果,一个500年内近祖,一个超过500年的远祖
 
扩展数据的有效性在理论上真的有这么强大吗?还是这个只是碰巧了?
 
 
2021-11-19 • IP属地澳大利亚
按热门排序    按默认排序

2 个回复

Mehmet - R1b-Z2106-CTS8966
个人意见,
 
简单整合不同公司的芯片测序位点数据,能互补增加各自芯片没有纳入检测的SNP位点,位点多了,再做单倍群分型或祖源分析,可以增加可信度。
 
但impute基因插补受所使用的 reference panel 影响很大,以前大都是用欧美的基因面板库做impute,比如亚洲的1KGP3,英国生物样本库(UK Biobank),肿瘤基因组图谱(TCGA)计划和多组学精准医学研究计划(TOPMed),但欧美人突变情况和东亚人肯定有一定差异。
 
我国科学家最近几年在做中国人自己的reference panel,一个是2020年上海交通大学医学院附属瑞金医院、国家代谢性疾病临床医学研究中心的宁光院士,王卫庆教授和毕宇芳教授,用了华大智造DNBSEQ测序平台,从10588例人DNA样本进行了40X深度全基因组测序,这个库包含中国人数前10的民族,汉族、壮族、回族、满族、苗族、彝族、藏族和蒙古族,含1.36亿个基因多态性位点(SNP)和1千万个插入或缺失位点(INDEL)
基因插补:https://www.chinamap.com/ 
论文:https://www.nature.com/articles/s41422-021-00564-z
 
另一个是2021年11月16日刚出来的,中国科学院生物物理研究所徐涛院士团队和何顺民研究员团队合作, 从2,999 个中国人(汉族人群)的全基因组深度测序数据(26.2X),并以中国神话中创造人类的女娲命名。包含7106万SNPs 和819万InDels的中国人群遗传变异图谱,并对其进行全面注释。
基因插补:http://bigdata.ibp.ac.cn/NyuWa/
论文:https://www.cell.com/cell-reports/fulltext/S2211-1247(21)01499-6

 
中国人用中国自己的reference panel做impute,应该更能反映真实的突变情况。
扩展数据即使再准也属于通过隐马尔可夫链算法和有关数据库推算出来的内容,并非从个体实际测得,不过在没有全基因组数据的情况下扩展数据进行性状预测这方面还是比较有用。一般情况下建议使用核心数据,或者从bam/cram文件提取。
以前国内就有人试着将DNALAND(现已消失)生成的扩展数据转化并传到Gedmatch,结果共祖方面匹配到了不少外国人,大概率因为DNALAND用的模型以外国人为主。

要回复问题请先登录注册