很贵的FHIT基因 综合讨论组

微基因的HLA分型太粗糙,于是我用第三方工具再做了一遍

这下可以得到6位精度的HLA分型了,read count > 50的都能分出来。
工具:arcasHLA,你还需要bwa, samtools等等等
硬件:最好核多内存大,例如我有256G内存,28核cpu,还需要足够快的硬盘。
 
有谁缺少HLA报告的可以自己做。
 
[alignment] Observed HLA genes:
                gene          abundance    read count    classes
                HLA-A             0.07%           175        104
                HLA-B             0.06%           140        103
                HLA-C             0.06%           153        101
                HLA-DMA           0.12%           209          3
                HLA-DMB           0.13%           237          3
                HLA-DOA           0.13%           214         26
                HLA-DOB           0.16%           291         10
                HLA-DPA1          0.11%           188         28
                HLA-DPA2          0.13%           211          7
                HLA-DPB1          0.10%           178         97
                HLA-DPB2          0.11%           186         10
                HLA-DQA1          0.09%           154         40
                HLA-DQA2          0.10%           164         19
                HLA-DQB1          0.16%           281         89
                HLA-DRA           0.11%           189          8
                HLA-DRB1          0.11%           197         33
                HLA-DRB2          0.04%            49          1
                HLA-DRB3          0.04%            66          7
                HLA-DRB4          0.04%            74         11
                HLA-DRB5          0.00%             1          1
                HLA-DRB7          0.04%            72          1
                HLA-E             0.08%           202         37
                HLA-F             0.09%           197         13
                HLA-G             0.09%           207         39
                HLA-H             0.02%            49         12
                HLA-HFE           0.12%           271          1
                HLA-J             0.08%           199          9
                HLA-K             0.04%            88         21
                HLA-L            65.88%        160367          2
                HLA-N             0.02%             6          1
                HLA-S             0.07%            40          4
                HLA-T            31.28%         31887          3
                HLA-U             0.00%             2          2
                HLA-V             0.06%            74          3
                HLA-W             0.25%           519         19
                HLA-Y             0.01%            14          3
2019-12-21 • IP属地中国
按热门排序    按默认排序

5 个回复

膜拜大佬……
管理员可以看到嘛?既然可以提供,那么给我们测过全基因组的报告升级一下呗。
放个github链接呀
费力科思 - WeGene勤杂工
需要平衡准确性和精度
按楼主的操作了,直接跑docker容器很爽,宿主机器配置没那么高,cpu i7-8700K  RAM 32G 跑的蛮快
github 链接:https://github.com/RabadanLab/arcasHLA
 
容器资源占用,峰值RAM占用不超8G
 
CONTAINER ID   NAME               CPU %     MEM USAGE / LIMIT     MEM %     NET I/O         BLOCK I/O         PIDS
eb98d6957541   hla-ce             0.00%     4.27GiB / 31.36GiB    13.62%    1.6GB / 13MB    20.5GB / 16.4GB   2
 
 
 
结果日志
[alignment] Processing pseudoalignment
[alignment] Pseudoaligned 49794 reads to HLA reference
[alignment] 49581 reads mapped to a single HLA gene
[alignment] Observed HLA genes:
                gene          abundance    read count    classes
                HLA-A             0.21%           113         74
                HLA-B             0.20%           105         74
                HLA-C             0.26%           141         91
                HLA-DMA           0.53%           200          2
                HLA-DMB           0.53%           204          3
                HLA-DOA           0.38%           140         13
                HLA-DOB           0.55%           220         10
                HLA-DPA1          0.40%           153         32
                HLA-DPA2          0.45%           161          7
                HLA-DPB1          0.45%           168         98
                HLA-DPB2          0.46%           173          9
                HLA-DQA1          0.45%           167         49
                HLA-DQA2          0.36%           133         22
                HLA-DQB1          0.81%           317        101
                HLA-DRA           0.35%           129          4
                HLA-DRB1          0.48%           186         10
                HLA-DRB3          0.01%             3          1
                HLA-DRB4          0.38%           146         13
                HLA-DRB7          0.34%           131          1
                HLA-E             0.37%           196         91
                HLA-F             0.45%           226         13
                HLA-G             0.35%           172         60
                HLA-H             0.06%            30         15
                HLA-HFE          88.60%         44948          3
                HLA-J             0.38%           204         40
                HLA-K             0.18%            97          6
                HLA-L             0.25%           134          4
                HLA-N             0.03%             2          1
                HLA-P             0.52%           185          7
                HLA-S             0.09%            12          4
                HLA-T             0.30%            66          8
                HLA-U             0.02%             2          1
                HLA-V             0.22%            56          3
                HLA-W             0.58%           261         14
--------------------------------------------------------------------------------
[genotype] Genotyping parameters:
                population: prior
                minimum count: 40
                max iterations: 1000
                tolerance: 1e-06
                drop iterations: 20
                drop threshold: 0.1
                zygosity threshold: 0.15
--------------------------------------------------------------------------------
[genotype] Genotyping HLA-A
[genotype] 113 reads aligned to HLA-A in 74 classes
[genotype] Top 10 alleles by undivided read count:
                allele                  read count
                A*24:459                        53
                A*24:443                        46
                A*24:473Q                       46
                A*24:02:01                      45
                A*24:02:101                     45
                A*24:02:103                     45
                A*24:02:108                     45
                A*24:02:116                     45
                A*24:02:125                     45
                A*24:02:127                     45

[genotype] Quantifying allele transcript abundance
[genotype] EM converged after 10 iterations

[genotype] Top alleles by abundance:
                allele                  abundance
                A*24:459                   32.83%
                A*26:01:01                 22.55%
                A*26:01:64                  9.73%
                A*24:443                    5.34%
                A*24:473Q                   5.17%
                A*03:01:01                  4.28%

[genotype] Pairs by % explained reads:
                allele pair                     explained
                A*24:459, A*26:01:64                79.65%
                A*24:443, A*26:01:64                73.45%
                A*24:473Q, A*26:01:64               73.45%
                A*03:01:01, A*24:459                51.33%
                A*24:443, A*24:459                  49.56%
                A*24:459, A*24:473Q                 49.56%
                A*03:01:01, A*24:443                45.13%
                A*03:01:01, A*24:473Q               45.13%
                A*24:443, A*24:473Q                 41.59%
                A*03:01:01, A*26:01:64              38.05%

[genotype] Checking zygosity
[genotype] Likely heterozygous: minor/major nonshared count 0.71

[genotype] Most likely genotype explaining 90 reads:
                A*24:459
                A*26:01:01
--------------------------------------------------------------------------------
[genotype] Genotyping HLA-B
[genotype] 105 reads aligned to HLA-B in 74 classes
[genotype] Top 10 alleles by undivided read count:
                allele                  read count
                B*15:01:01                      48
                B*18:01:48                      48
                B*37:04:02                      47
                B*15:535                        44
                B*46:01:01                      44
                B*46:01:31                      44
                B*46:66                         44
                B*46:82                         44
                B*46:89                         44
                B*46:90                         44

[genotype] Quantifying allele transcript abundance
[genotype] EM converged after 26 iterations

[genotype] Top alleles by abundance:
                allele                  abundance
                B*18:01:48                 24.07%
                B*15:01:01                 16.18%
                B*07:44N                    8.74%
                B*18:01:31                  7.22%
                B*40:06:01                  4.23%
                B*40:06:04                  4.23%
                B*40:06:17                  4.23%
                B*40:06:20                  4.23%
                B*40:06:26                  4.23%
                B*40:06:27                  4.23%
                B*46:01:01                  3.77%
                B*46:01:31                  3.77%
                B*15:296                    3.25%
                B*15:245:01                 2.62%
                B*35:420                    2.61%
                B*15:266                    2.41%

[genotype] Pairs by % explained reads:
                allele pair                     explained
                B*18:01:48, B*40:06:04              70.48%
                B*15:01:01, B*40:06:04              67.62%
                B*46:01:01, B*40:06:04              63.81%
                B*15:296, B*40:06:04                61.90%
                B*15:245:01, B*40:06:04             60.00%
                B*07:44N, B*18:01:48                59.05%
                B*15:266, B*40:06:04                59.05%
                B*15:01:01, B*18:01:48              58.10%
                B*07:44N, B*15:01:01                56.19%
                B*18:01:48, B*46:01:01              54.29%
                B*07:44N, B*46:01:01                52.38%
                B*15:296, B*18:01:48                52.38%
                B*07:44N, B*15:296                  50.48%
                B*15:245:01, B*18:01:48             50.48%
                B*18:01:48, B*35:420                50.48%
                B*15:266, B*18:01:48                49.52%
                B*07:44N, B*15:245:01               48.57%
                B*07:44N, B*15:266                  47.62%
                B*15:01:01, B*35:420                47.62%
                B*15:01:01, B*46:01:01              47.62%
                B*15:01:01, B*15:245:01             46.67%
                B*15:01:01, B*15:266                46.67%
                B*15:01:01, B*15:296                46.67%
                B*35:420, B*46:01:01                43.81%
                B*15:245:01, B*46:01:01             42.86%
                B*15:266, B*46:01:01                42.86%
                B*15:296, B*46:01:01                42.86%
                B*35:420, B*40:06:04                42.86%
                B*15:296, B*35:420                  41.90%
                B*15:245:01, B*15:296               40.95%
                B*15:266, B*15:296                  40.95%
                B*15:245:01, B*35:420               40.00%
                B*15:245:01, B*15:266               39.05%
                B*15:266, B*35:420                  39.05%
                B*07:44N, B*40:06:04                37.14%
                B*07:44N, B*35:420                  26.67%

[genotype] Checking zygosity
[genotype] Likely heterozygous: minor/major nonshared count 0.55

[genotype] Most likely genotype explaining 74 reads:
                B*18:01:31
                B*40:06:01
--------------------------------------------------------------------------------
省略很多……
目前情况是,这个工具做出来和官方给的报告有些项目差的很多,比如我测出来的HLA,有不少在第一位上都出现不符合的情况,具体什么情况....目前难以验证

要回复问题请先登录注册