yhlhhhhh -
每日与生物工程斗智斗勇到谢顶
祖源分析
基于e11祖源结果的神经网络分类器
好久不见~先解释一下,最近之所以在社区露面的少是因为在卷(bushi)建模国赛,所以如果有的时候回信息不及时还请见谅~
Anyway, 因为准备的过程中,卷大量的算法,其中就包括了神经网络,于是我就突发奇想:那是不是用神经网络对不同族群的e11结果训练模型,再分类,是不是可以实现大批量未知民族样本的族群预测。
于是本着有什么想法都要试试的好奇心,我打开了MATLAB软件,一开始以hapmap数据集为例,用贝叶斯优化试着跑了一遍,找到了一个比较好的超参数,最后发现准确度不错,92%,所以我又接着用HGDP亚洲部分数据集进行训练,发现结果也不错,也是90%左右。接着分析混淆矩阵,发现一些类别容易混淆,接着又合并了一些类别。
最终,确定类别为9类,其混淆矩阵如下:
神经网络结构如下图:
接着为了方便各位使用 我还特意写了python脚本,准确度最高是99.29%(因为MATLAB氪金费用。。。不菲。。。,而且MATLAB本身体积也很大)如下图:
现在也开源在我的GitHub上了~欢迎大家下载和pull request~
https://github.com/yhlhhhhh/Ancestor-predictor-for-Asian
未来展望的话就是能对跨族混血人群友好一些吧,能加入混血机制~其次就是用GAN(生成对抗网络)实现更多人群的分类。
Anyway, 因为准备的过程中,卷大量的算法,其中就包括了神经网络,于是我就突发奇想:那是不是用神经网络对不同族群的e11结果训练模型,再分类,是不是可以实现大批量未知民族样本的族群预测。
于是本着有什么想法都要试试的好奇心,我打开了MATLAB软件,一开始以hapmap数据集为例,用贝叶斯优化试着跑了一遍,找到了一个比较好的超参数,最后发现准确度不错,92%,所以我又接着用HGDP亚洲部分数据集进行训练,发现结果也不错,也是90%左右。接着分析混淆矩阵,发现一些类别容易混淆,接着又合并了一些类别。
最终,确定类别为9类,其混淆矩阵如下:
神经网络结构如下图:
接着为了方便各位使用 我还特意写了python脚本,准确度最高是99.29%(因为MATLAB氪金费用。。。不菲。。。,而且MATLAB本身体积也很大)如下图:
现在也开源在我的GitHub上了~欢迎大家下载和pull request~
https://github.com/yhlhhhhh/Ancestor-predictor-for-Asian
未来展望的话就是能对跨族混血人群友好一些吧,能加入混血机制~其次就是用GAN(生成对抗网络)实现更多人群的分类。
5 个回复
赞同来自: WeChat_1DFF36 、chen279
赞同来自: Vacual
赞同来自:
赞同来自:
赞同来自:
要回复问题请先登录或注册