王某 - 隔壁编号 F242-MF91-MF288 综合讨论组

在某友商测了全基因组的数据,前一阵出了结果，再上个树YFULL看看

大家过年好！前一阵在某友商处测了一下全基因组的数据
因为不在国内所以就没用微基因来测...
而且友商黑五的价格还不错所以...
因为口水好像不能从国内寄出，也不能寄到国内
所以这里就不透露是哪家，给友商打广告了,反正也就那几家...

2020-01-25 • IP属地英国

按热门排序按默认排序

15 个回复

zhengqiang - 勤奋学习

自己玩玩gatk的整套分析流程挺好的，不过那边生产的数据实际有效数据量和wegene比较还是有差距。我们年后2.9号开始上班。

赞同来自: 王某、Xiboluis

(2)

2020-01-30 • IP属地深圳 • 评论 (3) • 发自微基因APP

王某 - 隔壁编号 F242-MF91-MF288

这两天比较忙
就不写太细了
总算是 Ubunt for Windows 10实现了在windows系统里运行linux
然后安装上测一下

结果嘛还可以

fastp version: 0.20.0
sequencing: paired end (151 cycles + 151 cycles)
mean length before filtering: 147bp, 147bp
mean length after filtering: 147bp, 147bp
duplication rate: 5.273797%
Insert size peak: 261
Before filtering total reads: 645.849002 M
total bases: 95.535314 G
Q20 bases: 92.289777 G (96.602788%)
Q30 bases: 87.101787 G (91.172346%)
G C content: 41.614328%

total bases: 95.535314 G
基本上算是实现了30倍
等过年就给寄过去
也不知道这种状态wegene啥时候开工...

王某 - 隔壁编号 F242-MF91-MF288

时间上来说
黑五下的订单
我等了大概10天才把套件发给我...
我第二天吐完口水给他发回去...
紧接着开始了漫长的等待
中间又夹着圣诞假期
约么一个月之后终于给结果了
这比我预想的快不少，可能是因为某友商刚刚搞定了欧洲测试中心
我比之前那些一测等半年一年的要幸运的多了
...看来还是毛爷爷才是第一生产力...

王某 - 隔壁编号 F242-MF91-MF288

收到出结果的邮件后
我就去把原始文件给down下来了
结果是两个fastq.gz的压缩文件
在我搞明白为什么会有两个文件之后
我忽然发现这俩文件的大小都只有 25G左右
问题又来了
为什么网上都说是会有90G的文件呢？
然后我又开始去寻找这个答案了
满脑子就一个想法

在这里我颇费了一番周折
在搞明白了人类全基因组的数据约是3G，覆盖度30倍——30X大约就是90G
以及所谓读长100bp/150bp的意义之后
我忽然反应过来这里的G是 gigabase
而不是 gigabyte的概念
心里对这些用缩写的人是一个大大的卧草
就不能对门外汉友好一点么

然后问题又来了
我怎么能知道这些文件是按什么比例压缩的呢？原始数据是多少呢？
又是一番搜索
事后想想
好像从这里开始
事情就进入了一种很微妙的状态
搜索到的东西不是完全没提到
就是一种“你应该很熟练，所以这里我就不讲了”的感觉

心里对这些写这些东西的人是一个大大的卧草
就不能对门外汉友好一点么

在这里我又颇费了一番周折
在国外的某些爱好者中找到了一个工具叫做fastp（https://github.com/OpenGene/fastp）
说句题外话，话说这好像是某位中国~大神写的
Anyway，
在看到了简介里面大大的simple usage之后
我突然觉得我遇见了救星

for single end data (not compressed)
fastp -i in.fq -o out.fq
for paired end data (gzip compressed)
fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

看来我只要把这个什么fastp安上
然后输入下面这个指令
我就能知道这个结果的质量是不是他们声称的那样了

王某 - 隔壁编号 F242-MF91-MF288

今天就先写到这吧
槽点真是太多了
明天再说

王某 - 隔壁编号 F242-MF91-MF288

然后
我就开始琢磨怎么安装这个fastp
一番研究之后发现这个东东可以运行在Anaconda/Miniconda上面
鉴于曾经用过Anaconda的图形界面来plot实验数据
我就直接在电脑上运行
调出Anaconda prompt
建个新环境
加入bioconda的几个channels
然后输入

conda install fatsp

(我就不说我花了多少时间搜索到这些东西的了）
嗯...
按某些教程的说法
到这里就可以愉快的等待安装完成了...
可是
俺就看到了

PackagesNotFoundError: The following packages are not available from current channels:

为啥呢？它明明就在这个channel里面
你为啥就找不到？
好吧我硬装

conda install https://anaconda.org/bioconda/fastp/0.20.0/download/linux-64/fastp-0.20.0-hdbcaa40_0.tar.bz2

又是一圈捣鼓之后总算是安装完成了
就在我以为万事OK的时候
它就是运行不起来...

'fastp' is not recognized as an internal or external command

直到这时候我才发现那个文件下载地址里面有这么一个玩意 "linux-64"
然后我返回去看发现这些下载包不是支持 linux 就是 osx系统的

此时我心里出现的是一个大大的卧草
就算大家都用linux和osx, 但咱们能不能写明白一点，毕竟像我这样的门外汉一般只用Windows的好吧
就不能对门外汉友好一点么

王某 - 隔壁编号 F242-MF91-MF288

现在好了问题又出现了
我上哪去整个linux系统呢？
为这事安装一个双系统？我还得给现在的电脑做备份
太麻烦了
于是这件事在这里暂时就搁浅了

花开两朵各表一枝

当初我做WGS的主要目的之一就是想上树来着
想印证我在wegene做的那个Y单倍群的检测结果

所以我登上YFULL的网站，看到需要提交bam文件
从友商的网站上把bam下载下来，好几十个G
本来我当时打算把 Y的部分切下来再上传的
但鉴于我看到的bwa和minimap2这两种可以进行alignment的工具的介绍也是言语不详
我大胆推测这俩货也是必须运行在Linux和Osx 上面
所以我当时就放弃了
...于是我就把整个bam全传到网盘上去了，让他们切去吧...
(非常不建议大家也这么干，毕竟有泄露隐私的风险）
过了大概一个礼拜吧
提示我交钱
SNP的分析结果出来了