linux的20题

2020-10-28 本文已影响0人晓颖_9b6f

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

pwd
ls
mkdir practice
cd practice
mkdir -p 1/2/3/4/5/6/7/8/9
ls

2.在创建好的文件夹下面，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ，里面创建文本文件 me.txt

touch me.txt

3.在文本文件 me.txt 里面输入内容:

vim me.txt
复制粘贴内容:
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
esc-----:-----输入wq 保存并退出

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

rm -r ~/test/1

5.在任意文件夹下面创建 folder1~5这5个文件夹，然后每个文件夹下面继续创建 folder1~5这5个文件夹

mkdir -p folder_{1..5}/folder_{1..5}

6.在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ，内容也要一样。(这个题目难度超纲，建议一个月后再回过头来做)

7.再次删除掉前面几个步骤建立的文件夹及文件

rm -r  practice

8.下载http://www.biotrainee.com/jmzeng/igv/test.bed 文件，后在里面选择含有 H3K4me3 的那一行是第几行，该文件总共有几行。

grep -n 'H3K4me3' test.bed

9.下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件，并且解压，查看里面的文件夹结构

wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip 
unzip  rmDuplicate.zip 
tree rmDuplicate

10.打开第九题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚生物信息学里面的SAM/BAM 定义是什么。

cd rmDuplicate/samtools/single 
vim 查看sam和bam文件

sam分为两部分，注释信息（header section）和比对结果部分（alignment section）
比对结果部分（alignment section），每一行表示一个片段（segment）的比对信息，包括11个必须的字段（mandatory fields）和一个可选的字段，字段之间用tag分割。必须的字段有11个，顺序固定，不可用时，根据字段定义，可以为’0‘或者’*’

1 QNAME,序列的名字（Read的名字）
2 FLAG, 概括出一个合适的标记，各个数字分别代表
3 RNAME,参考序列的名字（染色体）
4 POS,在参考序列上的位置（染色体上的位置）
5 MAPQ, mapping qulity 越高则位点越独特
6 CIGAR,代表比对结果的CIGAR字符串
7 RNEXT, mate 序列所在参考序列的名称; 下一个片段比对上的参考序列的编号，没有另外的片段，这里是’‘，同一个片段，用’=‘；
8 PNEXT, mate 序列在参考序列上的位置;下一个片段比对上的位置，如果不可用，此处为0；
9 TLEN，估计出的片段的长度，当mate 序列位于本序列上游时该值为负值。Template的长度，最左边得为正，最右边的为负，中间的不用定义正负，不分区段（single-segment)的比对上，或者不可用时，此处为0
10 SEQ，read的序列;序列片段的序列信息，如果不存储此类信息，此处为’‘，注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度；
11 QUAL，ASCII码格式的序列质量;序列的质量信息，格式同FASTQ一样。
可选的字段（field）
12 NM:i 经过编辑的序列
-13 MD:Z 代表序列和参考序列错配的字符串
14 AS:i 匹配的得分

11.安装 samtools 软件

conda install samtools

12.打开后缀为BAM 的文件，找到产生该文件的命令。提示一下命令是

cd  rmDuplicate/samtools/single 
ls
vim tmp.rmdup.bam
samtools view -h tmp.sorted.bam |grep '^@PG'|awk 'BEGIN{FS="\t"}{print $5}'|cut -d: -f2
"/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp"

13.根据上面的命令，找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

samtools view -h tmp.sorted.bam |egrep '^@S.*?(chr[XYM]\s+.*|chr[1-9]?[0-9]\s+).*'|wc -l

14.上面的后缀为BAM 的文件的第二列，只有 0 和 16 两个数字，用 cut/sort/uniq等命令统计它们的个数

samtools view tmp.rmdup.bam |cut -f2|sort |uniq -c

15.重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件，再次查看第二列，并且统计

cd rmDuplicate/samtools/paired
samtools view tmp.rmdup.bam |cut -f2 |sort |uniq -c|sort -t' ' -nrk1,1

16.下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解压，查看里面的文件夹结构，这个文件有2.3M，注意留心下载时间及下载速度。

速度200K/s左右.
ls
unzip sickle-results.zip

17.解压 sickle-results/single_tmp_fastqc.zip 文件，并且进入解压后的文件夹，找到 fastqc_data.txt 文件，并且搜索该文本文件以 >>开头的有多少行？

unzip sickle-results/single_tmp_fastqc.zip
cd single_tmp_fastqc
ls
grep '^>>' fastqc_data.txt |wc -l
24

18.下载 `http://www.biotrainee.com/jmzeng/tmp/hg38.tss` 文件，去NCBI找到`TP53/BRCA1`等自己感兴趣的基因对应的 `refseq数据库` ID，然后找到它们的`hg38.tss` 文件的哪一行。

https://www.ncbi.nlm.nih.gov/gene/7157

wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss
grep 'NM_000546' hg38.tss

19.解析hg38.tss 文件，统计每条染色体的基因个数

grep -oE 'chr[0-9]{1,2}|chr[a-zA-Z]{1,2}' hg38.tss |sort |uniq -c

20.解析hg38.tss 文件，统计NM和NR开头的熟练，了解NM和NR开头的含义。

grep -oE '^(NM|NR)' hg38.tss |sort|uniq -c
NM：转录组产物的序列mRNA
NR：非编码的转录组序列ncRNA

linux的20题

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

2.在创建好的文件夹下面，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ，里面创建文本文件 me.txt

3.在文本文件 me.txt 里面输入内容:

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

5.在任意文件夹下面创建 folder1~5这5个文件夹，然后每个文件夹下面继续创建 folder1~5这5个文件夹

6.在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ，内容也要一样。(这个题目难度超纲，建议一个月后再回过头来做)

7.再次删除掉前面几个步骤建立的文件夹及文件

8.下载http://www.biotrainee.com/jmzeng/igv/test.bed 文件，后在里面选择含有 H3K4me3 的那一行是第几行，该文件总共有几行。

9.下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件，并且解压，查看里面的文件夹结构

10.打开第九题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚生物信息学里面的SAM/BAM 定义是什么。

11.安装 samtools 软件

12.打开后缀为BAM 的文件，找到产生该文件的命令。提示一下命令是

13.根据上面的命令，找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

14.上面的后缀为BAM 的文件的第二列，只有 0 和 16 两个数字，用 cut/sort/uniq等命令统计它们的个数

15.重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件，再次查看第二列，并且统计

16.下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解压，查看里面的文件夹结构，这个文件有2.3M，注意留心下载时间及下载速度。

17.解压 sickle-results/single_tmp_fastqc.zip 文件，并且进入解压后的文件夹，找到 fastqc_data.txt 文件，并且搜索该文本文件以 >>开头的有多少行？

18.下载 `http://www.biotrainee.com/jmzeng/tmp/hg38.tss` 文件，去NCBI找到`TP53/BRCA1`等自己感兴趣的基因对应的 `refseq数据库` ID，然后找到它们的`hg38.tss` 文件的哪一行。

猜你喜欢

热点阅读

linux的20题

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

2.在创建好的文件夹下面，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ，里面创建文本文件 me.txt

3.在文本文件 me.txt 里面输入内容:

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

5.在任意文件夹下面创建 folder1~5这5个文件夹，然后每个文件夹下面继续创建 folder1~5这5个文件夹

6.在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ，内容也要一样。(这个题目难度超纲，建议一个月后再回过头来做)

7.再次删除掉前面几个步骤建立的文件夹及文件

8.下载http://www.biotrainee.com/jmzeng/igv/test.bed 文件，后在里面选择含有 H3K4me3 的那一行是第几行，该文件总共有几行。

9.下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件，并且解压，查看里面的文件夹结构

10.打开第九题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚 生物信息学里面的SAM/BAM 定义是什么。

11.安装 samtools 软件

12.打开 后缀为BAM 的文件，找到产生该文件的命令。 提示一下命令是

13.根据上面的命令，找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

14.上面的后缀为BAM 的文件的第二列，只有 0 和 16 两个数字，用 cut/sort/uniq等命令统计它们的个数

15.重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件，再次查看第二列，并且统计

16.下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解压，查看里面的文件夹结构， 这个文件有2.3M，注意留心下载时间及下载速度。

17.解压 sickle-results/single_tmp_fastqc.zip 文件，并且进入解压后的文件夹，找到 fastqc_data.txt 文件，并且搜索该文本文件以 >>开头的有多少行？

18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件，去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID，然后找到它们的hg38.tss 文件的哪一行。

猜你喜欢

热点阅读

6.在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ，内容也要一样。(这个题目难度超纲，建议一个月后再回过头来做)

10.打开第九题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚生物信息学里面的SAM/BAM 定义是什么。

12.打开后缀为BAM 的文件，找到产生该文件的命令。提示一下命令是

16.下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解压，查看里面的文件夹结构，这个文件有2.3M，注意留心下载时间及下载速度。

18.下载 `http://www.biotrainee.com/jmzeng/tmp/hg38.tss` 文件，去NCBI找到`TP53/BRCA1`等自己感兴趣的基因对应的 `refseq数据库` ID，然后找到它们的`hg38.tss` 文件的哪一行。