linux的20题

2020-10-28  本文已影响0人  晓颖_9b6f

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

pwd
ls
mkdir practice
cd practice
mkdir -p 1/2/3/4/5/6/7/8/9
ls

2.在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt

touch me.txt

3.在文本文件 me.txt 里面输入内容:

vim me.txt
复制粘贴内容:
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
esc-----:-----输入wq 保存并退出

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

rm -r ~/test/1

5.在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹

mkdir -p folder_{1..5}/folder_{1..5}

6.在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ,内容也要一样。(这个题目难度超纲,建议一个月后再回过头来做)

7.再次删除掉前面几个步骤建立的文件夹及文件

rm -r  practice

8.下载http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面选择含有 H3K4me3 的那一行是第几行,该文件总共有几行。

grep -n 'H3K4me3' test.bed

9.下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解压,查看里面的文件夹结构

wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip 
unzip  rmDuplicate.zip 
tree rmDuplicate

10.打开第九题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚 生物信息学里面的SAM/BAM 定义是什么。

cd rmDuplicate/samtools/single 
vim 查看sam和bam文件

sam分为两部分,注释信息(header section)和比对结果部分(alignment section)
比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tag分割。必须的字段有11个,顺序固定,不可用时,根据字段定义,可以为’0‘或者’*’

1 QNAME,序列的名字(Read的名字)
2 FLAG, 概括出一个合适的标记,各个数字分别代表
3 RNAME,参考序列的名字(染色体)
4 POS,在参考序列上的位置(染色体上的位置)
5 MAPQ, mapping qulity 越高则位点越独特
6 CIGAR,代表比对结果的CIGAR字符串
7 RNEXT, mate 序列所在参考序列的名称; 下一个片段比对上的参考序列的编号,没有另外的片段,这里是’‘,同一个片段,用’=‘;
8 PNEXT, mate 序列在参考序列上的位置;下一个片段比对上的位置,如果不可用,此处为0;
9 TLEN,估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0
10 SEQ,read的序列;序列片段的序列信息,如果不存储此类信息,此处为’
‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;
11 QUAL,ASCII码格式的序列质量;序列的质量信息,格式同FASTQ一样。
可选的字段(field)
12 NM:i 经过编辑的序列
-13 MD:Z 代表序列和参考序列错配的字符串
14 AS:i 匹配的得分

11.安装 samtools 软件

conda install samtools

12.打开 后缀为BAM 的文件,找到产生该文件的命令。 提示一下命令是

cd  rmDuplicate/samtools/single 
ls
vim tmp.rmdup.bam
samtools view -h tmp.sorted.bam |grep '^@PG'|awk 'BEGIN{FS="\t"}{print $5}'|cut -d: -f2
"/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp"

13.根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

samtools view -h tmp.sorted.bam |egrep '^@S.*?(chr[XYM]\s+.*|chr[1-9]?[0-9]\s+).*'|wc -l

14.上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数

samtools view tmp.rmdup.bam |cut -f2|sort |uniq -c

15.重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计

cd rmDuplicate/samtools/paired
samtools view tmp.rmdup.bam |cut -f2 |sort |uniq -c|sort -t' ' -nrk1,1

16.下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解压,查看里面的文件夹结构, 这个文件有2.3M,注意留心下载时间及下载速度。

速度200K/s左右.
ls
unzip sickle-results.zip 

17.解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?

unzip sickle-results/single_tmp_fastqc.zip
cd single_tmp_fastqc
ls
grep '^>>' fastqc_data.txt |wc -l
24

18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。

https://www.ncbi.nlm.nih.gov/gene/7157

wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss
grep 'NM_000546' hg38.tss

19.解析hg38.tss 文件,统计每条染色体的基因个数

grep -oE 'chr[0-9]{1,2}|chr[a-zA-Z]{1,2}' hg38.tss |sort |uniq -c

20.解析hg38.tss 文件,统计NM和NR开头的熟练,了解NM和NR开头的含义。

grep -oE '^(NM|NR)' hg38.tss |sort|uniq -c
NM:转录组产物的序列mRNA
NR:非编码的转录组序列ncRNA
上一篇 下一篇

猜你喜欢

热点阅读