yhlhhhhh yhlhhhhh - 每日与生物工程斗智斗勇到谢顶 祖源分析

基于e11祖源结果的神经网络分类器

好久不见~先解释一下,最近之所以在社区露面的少是因为在卷(bushi)建模国赛,所以如果有的时候回信息不及时还请见谅~
Anyway, 因为准备的过程中,卷大量的算法,其中就包括了神经网络,于是我就突发奇想:那是不是用神经网络对不同族群的e11结果训练模型,再分类,是不是可以实现大批量未知民族样本的族群预测。
于是本着有什么想法都要试试的好奇心,我打开了MATLAB软件,一开始以hapmap数据集为例,用贝叶斯优化试着跑了一遍,找到了一个比较好的超参数,最后发现准确度不错,92%,所以我又接着用HGDP亚洲部分数据集进行训练,发现结果也不错,也是90%左右。接着分析混淆矩阵,发现一些类别容易混淆,接着又合并了一些类别。
最终,确定类别为9类,其混淆矩阵如下: 

untitled1.png


神经网络结构如下图: 

截屏2022-08-01_上午10.32_.01_.png


接着为了方便各位使用 我还特意写了python脚本,准确度最高是99.29%(因为MATLAB氪金费用。。。不菲。。。,而且MATLAB本身体积也很大)如下图:

捕获.PNG


截屏2022-08-01_下午5.55_.45_.png


现在也开源在我的GitHub上了~欢迎大家下载和pull request~
https://github.com/yhlhhhhh/Ancestor-predictor-for-Asian
未来展望的话就是能对跨族混血人群友好一些吧,能加入混血机制~其次就是用GAN(生成对抗网络)实现更多人群的分类。
2022-08-02 • IP属地北京
按热门排序    按默认排序

5 个回复

yhlhhhhh - 每日与生物工程斗智斗勇到谢顶
现在混合机制已经出来了。原理就是利用神经网络的输出层每个节点的权重相对于个人的z得分,为正的则说明该成分较其他成分而言较为显著,对筛选出的成分的权重再进行求平均,即可得到结果。算法的好处就是相对于vahaduo的操作来说是直接自动定k值(也就是混合族群数)的。得益于这个算法筛选比较严格,所以说在原基础上我们又增加了藏族、回族类,并且将原来的汉族类分为了南汉类和北汉类,未来可能还会加入中部汉类以及更多类。

捕获5.PNG

 
写得挺好,至于数据方面,有兴趣的话也可以尝试使用虚拟机+Ubuntu来转化或拆解哈佛大学Reich实验室的1240K+HO科研样本数据包,那里的数据远比传统的千人基因组、HGDP、SGDP等数据量更大(一万多例)、种类更齐全
只可以分类民族吗 可以具体到区域不
那个网站讲了太多如何润,怎么润的话题,现在处于无法登陆状态。打不开。
实干兴坛,期待微解读🤓

要回复问题请先登录注册