王某 王某 - 隔壁编号 F242-MF91-MF288 综合讨论组

在某友商测了全基因组的数据,前一阵出了结果,再上个树YFULL看看

大家过年好!前一阵在某友商处测了一下全基因组的数据
因为不在国内所以就没用微基因来测...
而且友商黑五的价格还不错所以...
因为口水好像不能从国内寄出,也不能寄到国内
所以这里就不透露是哪家,给友商打广告了,反正也就那几家...
2020-01-25 • IP属地英国
按热门排序    按默认排序

15 个回复

zhengqiang - 勤奋学习
自己玩玩gatk的整套分析流程挺好的,不过那边生产的数据实际有效数据量和wegene比较还是有差距。我们年后2.9号开始上班。
王某 - 隔壁编号 F242-MF91-MF288
这两天比较忙
就不写太细了
总算是 Ubunt for Windows 10实现了在windows系统里运行linux
然后安装上测一下
 
结果嘛还可以
fastp version: 0.20.0
sequencing: paired end (151 cycles + 151 cycles)
mean length before filtering: 147bp, 147bp
mean length after filtering: 147bp, 147bp
duplication rate: 5.273797%
Insert size peak: 261
Before filtering total reads: 645.849002 M
total bases: 95.535314 G
Q20 bases: 92.289777 G (96.602788%)
Q30 bases: 87.101787 G (91.172346%)
G C content: 41.614328%
total bases: 95.535314 G
基本上算是实现了30倍
等过年就给寄过去
也不知道这种状态wegene啥时候开工...
 
王某 - 隔壁编号 F242-MF91-MF288
时间上来说
黑五下的订单
我等了大概10天才把套件发给我...
我第二天吐完口水给他发回去...
紧接着开始了漫长的等待
中间又夹着圣诞假期
约么一个月之后终于给结果了
这比我预想的快不少,可能是因为某友商刚刚搞定了欧洲测试中心
我比之前那些一测等半年一年的要幸运的多了
...看来还是毛爷爷才是第一生产力...
 
 
 
王某 - 隔壁编号 F242-MF91-MF288
收到出结果的邮件后
我就去把原始文件给down下来了
结果是两个fastq.gz的压缩文件
在我搞明白为什么会有两个文件之后
我忽然发现这俩文件的大小都只有 25G左右
问题又来了
为什么网上都说是会有90G的文件呢?
然后我又开始去寻找这个答案了
满脑子就一个想法

sssssd.jpg

 
 在这里我颇费了一番周折
在搞明白了 人类全基因组的数据约是3G,覆盖度30倍——30X大约就是90G
以及所谓读长100bp/150bp的意义之后
我忽然反应过来这里的G是 gigabase
而不是 gigabyte的概念
心里对这些用缩写的人是一个大大的卧草
就不能对门外汉友好一点么
 
然后问题又来了
我怎么能知道这些文件是按什么比例压缩的呢?原始数据是多少呢?
又是一番搜索
事后想想
好像从这里开始
事情就进入了一种很微妙的状态
搜索到的东西不是完全没提到
就是一种“你应该很熟练,所以这里我就不讲了”的感觉
 
心里对这些写这些东西的人是一个大大的卧草
就不能对门外汉友好一点么

在这里我又颇费了一番周折
在国外的某些爱好者中找到了一个工具 叫做fastp(https://github.com/OpenGene/fastp
说句题外话,话说这好像是某位中国~大神写的
Anyway,
在看到了简介里面大大的simple usage之后
我突然觉得我遇见了救星
 for single end data (not compressed)
fastp -i in.fq -o out.fq
for paired end data (gzip compressed)
fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz
 
看来我只要把这个什么fastp安上
然后输入下面这个指令
我就能知道这个结果的质量是不是他们声称的那样了


 
王某 - 隔壁编号 F242-MF91-MF288
今天就先写到这吧
槽点真是太多了
明天再说
王某 - 隔壁编号 F242-MF91-MF288
然后
我就开始琢磨怎么安装这个fastp
一番研究之后 发现这个东东可以运行在Anaconda/Miniconda上面
鉴于曾经用过Anaconda的图形界面来plot实验数据
我就直接在电脑上运行
调出Anaconda prompt
建个新环境
加入bioconda的几个channels
然后输入
conda install fatsp
(我就不说我花了多少时间搜索到这些东西的了)
嗯...
按某些教程的说法
到这里就可以愉快的等待安装完成了...
可是 
俺就看到了
PackagesNotFoundError: The following packages are not available from current channels:
为啥呢?它明明就在这个channel里面
你为啥就找不到?
好吧 我硬装
又是一圈捣鼓之后 总算是安装完成了
就在我以为万事OK的时候
它就是运行不起来...
'fastp' is not recognized as an internal or external command
直到这时候我才发现 那个文件下载地址里面有这么一个玩意 "linux-64"
然后我返回去看 发现这些下载包不是支持 linux 就是 osx系统的
 
此时我心里出现的是一个大大的卧草
就算大家都用linux和osx, 但咱们能不能写明白一点,毕竟像我这样的门外汉一般只用Windows的好吧
就不能对门外汉友好一点么
 
 
王某 - 隔壁编号 F242-MF91-MF288
现在好了 问题又出现了
我上哪去整个linux系统呢?
为这事安装一个双系统? 我还得给现在的电脑做备份
太麻烦了
于是这件事在这里暂时就搁浅了
 
花开两朵 各表一枝
 
当初我做WGS的主要目的之一就是想上树来着
想印证我在wegene做的那个Y单倍群的检测结果
 
所以我登上YFULL的网站,看到需要提交bam文件
从友商的网站上把bam下载下来,好几十个G
本来我当时打算把 Y的部分切下来再上传的
但鉴于我看到的bwa和minimap2这两种可以进行alignment的工具的介绍也是言语不详
我大胆推测这俩货也是必须运行在Linux和Osx 上面
所以我当时就放弃了
...于是我就把整个bam全传到网盘上去了,让他们切去吧...
(非常不建议大家也这么干,毕竟有泄露隐私的风险)
过了大概一个礼拜吧
提示我交钱
SNP的分析结果出来了
 
 
王某 - 隔壁编号 F242-MF91-MF288
先说结论哈 
微基因芯片还是有假阳的位点啊,实锤了
我在维基因里测得的结果是
4.png

但实际上应该是上边画圈的这个(这个树也该更新了喂)

5.png

14次读取FGC16857,都是negative
社区里面也看到过有关这个假阳的猜测,这次实锤了
 
1.png

虽然不知道为什么就给我切出来110M的bam...
从这个统计结果来看
覆盖率还是挺好的..
这个中位数12X的读长让人很蛋疼啊...
虽然我知道平均读长30X并不是平均分配的
但这个12X...
 

3.png

居然有65个novel SNP...
看来我这大路货的Y,反而根本没啥人上树啊...
总是看到大家鼓动稀有父系的人上树
明明大簇才更应该上树的好吧...
 
一眼就看到了 MF91
看来..
国内友商那边不上是不行了
这些年那边一直在搞父系和姓氏的热点
也不知道微基因的发展规划是什么
就是很迷...
 
 
是啊,以后不知道会怎么发展
Wegene目前分析全基因组还是免费,自己折腾还不如直接传到wegene
哈哈哈,那个后缀本来就是Linux系统的文件格式,其实在Windows下是可以解压缩的
当你看到.gz文件时你就知道应该用Linux了。
Yamol - ~~~
勇于尝试!
west - 早知道基因,早做健康管理哈
楼主真是动手能力和学习能力很强的“门外汉”....
不容易啊

要回复问题请先登录注册