yhlhhhhh - 每日与生物工程斗智斗勇到谢顶祖源分析

基于e11祖源结果的神经网络分类器

好久不见～先解释一下，最近之所以在社区露面的少是因为在卷（bushi）建模国赛，所以如果有的时候回信息不及时还请见谅～
Anyway, 因为准备的过程中，卷大量的算法，其中就包括了神经网络，于是我就突发奇想:那是不是用神经网络对不同族群的e11结果训练模型，再分类，是不是可以实现大批量未知民族样本的族群预测。
于是本着有什么想法都要试试的好奇心，我打开了MATLAB软件，一开始以hapmap数据集为例，用贝叶斯优化试着跑了一遍，找到了一个比较好的超参数，最后发现准确度不错，92%，所以我又接着用HGDP亚洲部分数据集进行训练，发现结果也不错，也是90%左右。接着分析混淆矩阵，发现一些类别容易混淆，接着又合并了一些类别。
最终，确定类别为9类，其混淆矩阵如下:

神经网络结构如下图:

接着为了方便各位使用我还特意写了python脚本，准确度最高是99.29%（因为MATLAB氪金费用。。。不菲。。。，而且MATLAB本身体积也很大）如下图:

现在也开源在我的GitHub上了～欢迎大家下载和pull request～
https://github.com/yhlhhhhh/Ancestor-predictor-for-Asian
未来展望的话就是能对跨族混血人群友好一些吧，能加入混血机制～其次就是用GAN（生成对抗网络）实现更多人群的分类。

2022-08-02 • IP属地北京

按热门排序按默认排序

5 个回复

yhlhhhhh

- 每日与生物工程斗智斗勇到谢顶

现在混合机制已经出来了。原理就是利用神经网络的输出层每个节点的权重相对于个人的z得分，为正的则说明该成分较其他成分而言较为显著，对筛选出的成分的权重再进行求平均，即可得到结果。算法的好处就是相对于vahaduo的操作来说是直接自动定k值（也就是混合族群数）的。得益于这个算法筛选比较严格，所以说在原基础上我们又增加了藏族、回族类，并且将原来的汉族类分为了南汉类和北汉类，未来可能还会加入中部汉类以及更多类。