生物信息常用软件使用说明记录
记录用过的一些生信软件吧
FastX格式处理系列
- 截取数据量软件seqtk sample
$ seqtk sample
Usage: seqtk sample [-2] [-s seed=11] <in.fa> <frac>|<number>
Options: -s INT RNG seed [11]
-2 2-pass mode: twice as slow but with much reduced memory
举例:
seqtk sample -s100 test.fq.gz 5242880 | pigz -p 4 > test.clean.fq.gz
- seqtk trimfq
也是非常快速的一款处理fasta/q文件的工具,可以截取数据量,
$ seqtk trimfq
Usage: seqtk trimfq [options] <in.fq>
Options: -q FLOAT error rate threshold (disabled by -b/-e) [0.05]
-l INT maximally trim down to INT bp (disabled by -b/-e) [30]
-b INT trim INT bp from left (non-zero to disable -q/-l) [0]
-e INT trim INT bp from right (non-zero to disable -q/-l) [0]
-L INT retain at most INT bp from the 5'-end (non-zero to disable -q/-l) [0]
-Q force FASTQ output
例如:read长度为400bp,需要截取前150bp,可以设置-e是从后端开始截取250bp,剩下的就是前150bp。
seqtk trimfq -e 250 RP01G9E1L1_R1.fq.gz >trimed_RP01G9E1L1_R1.fq
例如: read长度为400bp,需要丢掉前30bp,保留后面370bp,则可以设置-b参数
seqtk trimfq -b 30 G19E1L1_1.fq.gz > >test.fq
将fastq转换为fasta
seqkit fq2fa ../02.align/RP01G9E1L3_R1.fq.gz >RP01G9E1L3_R1.fa
-
annovar使用说明
https://www.jianshu.com/p/9b5719304311 -
call variant 软件:GATK使用说明
做WGS,或小型变异检测 -
华大主流过滤测序数据软件:SOAPnuke使用说明
soapnuke 报错Segmentation fault,一般是fastq内容有问,检测fastq文件,可尝试用gzip -f -d -c ./a_1.fastq.gz > a_1.fastq 看看是否能够解压。如果报错 invalid compressed data--format violated -
fastqc 原始数据质量值网页显示报告
用法:fastqc *.fq.gz -
数据中的adapter处理:cutadapt
https://www.jianshu.com/p/412e55040358
比对软件系列:
-
任何项目都离不开的比对软件:bwa使用说明:
https://www.jianshu.com/p/67b203cc0779 -
star
-
bowtie/bowtie2
https://www.jianshu.com/p/67b203cc0779 -
tophat
-
几乎每天都在用的samtools 使用说明:
https://www.jianshu.com/p/67b203cc0779 -
bam进行统计的软件:bamdst使用说明:
不怎么好用 -
bedtools
见笔记 bedtools 使用教程。 -
blast
见笔记blast用法汇总 -
igblast
见笔记 https://www.jianshu.com/p/1a12a332ca47
单细胞测序系列
-
indrop
-
zUMIS软件的使用,
-
10x数据 cellranger的使用
cellranger -
T细胞B细胞分析软件mixcr的使用。
mixcr非常简单易用,它的主要功能是能重构出CDR序列。 用法主要有三个步骤: 1,align 2,assemble 3,export
自己写的一些工具:
-
将fasta模拟成fastq数据格式
https://www.jianshu.com/p/4181ac1b0c4e -
按比例合并两个fastq
https://www.jianshu.com/p/a50092052552 -
比较两个文件中某两列是否有交集
https://github.com/levinyi/scripts/blob/master/compare.py
https://www.jianshu.com/p/e097c9e0789b -
fastq中提取百分比数据:
https://www.jianshu.com/p/ea4ae03a9eb2 -
提取fastq或fasta格式的数据:
https://www.jianshu.com/p/22051fc6e0a3 -
R 画venn图,两个,三个,四个,五个都能画。
https://www.jianshu.com/p/05f4bae28443
- 两组数据计算相关性
https://www.jianshu.com/p/66c0448f44f3