Linux019 生信人的linux考试题
参考来源
- 在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。
mkdir -p 1/2/3/4/5/6/7/8/9
2.在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt
# 使用相对路径
touch 1/2/3/4/5/6/7/8/9/me.txt
# 使用绝对路径
# touch /home/caoqiansheng/biotreeTest/1/2/3/4/5/6/7/8/9/me.txt
前两题效果
- 在文本文件 me.txt 里面输入内容:
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
# 使用vim编辑器打开me.txt
vim 1/2/3/4/5/6/7/8/9/me.txt
# 输入i进入插入模式
i
# 输入文本
Go to: [http://www.biotrainee.com/](http://www.biotrainee.com/)
I love bioinfomatics.
And you ?
# 按 ESC 键退出插入模式回到普通模式,再按下 :,进入命令行模式,输入wq,保存数据并退出vim
# 查看me.txt内容
cat 1/2/3/4/5/6/7/8/9/me.txt
image.png
4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt
# 在文件夹1所在目录,使用rm -r命令删除
rm -r 1
5.在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹,效果如下
mkdir -p folder{1..5}/folder{1..5}
image.png
- 在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ,内容也要一样。(这个题目难度超纲,建议一个月后再回过头来做)
# xargs 命令将传递echo命令,-n参数指定次数,cp -v显示拷贝详细的进行步骤
echo folder{1..5}/folder{1..5} | xargs -n 1 cp -v 1/2/3/4/5/6/7/8/9/me.txt
xargs 是给命令传递参数的一个过滤器,也是组合多个命令的一个工具,可以将管道或标准输入(stdin)数据转换成命令行参数,也能够从文件的输出中读取数据,
xargs 也可以将单行或多行文本输入转换为其他格式,例如多行变单行,单行变多行。
xargs 默认的命令是 echo,这意味着通过管道传递给 xargs 的输入将会包含换行和空白,不过通过 xargs 的处理,换行和空白将被空格取代。
xargs 是一个强有力的命令,它能够捕获一个命令的输出,然后传递给另外一个命令。之所以能用到这个命令,关键是由于很多命令不支持|管道来传递参数,而日常工作中有有这个必要,所以就有了 xargs 命令
命令格式:
somecommand |xargs -item command
参数:
-a file 从文件中读入作为sdtin
-e flag ,注意有的时候可能会是-E,flag必须是一个以空格分隔的标志,当xargs分析到含有flag这个标志的时候就停止。
-p 当每次执行一个argument的时候询问一次用户。
-n num 后面加次数,表示命令在执行的时候一次用的argument的个数,默认是用所有的。
-t 表示先打印命令,然后再执行。
-i 或者是-I,这得看linux支持了,将xargs的每项名称,一般是一行一行赋值给 {},可以用 {} 代替。
-r no-run-if-empty 当xargs的输入为空的时候则停止xargs,不用再去执行了。
-s num 命令行的最大字符数,指的是 xargs 后面那个命令的最大命令行字符数。
-L num 从标准输入一次读取 num 行送给 command 命令。
-l 同 -L。
-d delim 分隔符,默认的xargs分隔符是回车,argument的分隔符是空格,这里修改的是xargs的分隔符。
-x exit的意思,主要是配合-s使用。。
-P 修改最大的进程数,默认是1,为0时候为as many as it can ,这个例子我没有想到,应该平时都用不到的吧。
- 再次删除掉前面几个步骤建立的文件夹及文件
rm
命令
8.下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面选择含有 H3K4me3 的那一行是第几行,该文件总共有几行。
# wget命令下载文件
wget http://www.biotrainee.com/jmzeng/igv/test.bed
# grep命令查找文件关键词
grep -n H3K4me3 test.bed
# wc(Word Count)命令统计指定文件中的字节数、字数、行数
wc test.bed
image.png
- 下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解压,查看里面的文件夹结构
# 下载文件
wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip
# 解压
unzip rmDuplicate.zip
# 查看文件夹结构
tree rmDuplicate
image.png
10.打开第9题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚生物信息学里面的SAM/BAM 定义是什么。
# 进入rmDuplicate/samtools/single
cd ./rmDuplicate/samtools/single
# 查看sam文件
less -SN tmp.sam
# 或使用相对/绝对路径查看
# less -SN /home/caoqiansheng/biotreeTest/rmDuplicate/samtools/single/tmp.sam
# less -SN ./rmDuplicate/samtools/single/tmp.sam
SAM:SAM (Sequence Alignment/Map) 格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。
BAM:BAM是SAM的二进制形式
11.安装 samtools 软件
linux软件安装使用conda,详见
Linux009 Ubuntu软件安装
Linux010 Miniconda安装生信软件
# 新建测试环境
conda create -n test
# 激活新建环境
conda activate test
# conda安装过程,所有步骤均选yes
conda install -y samtools
samtools --help
但是在运行samtools时发现报错
samtools: error while loading shared libraries: libtinfow.so.5: cannot open shared object file: No such file or directory
解决办法参考 https://www.jianshu.com/p/9ae2219e237b,使用conda-forge库安装ncurses
conda install -c conda-forge ncurses
- 打开后缀为BAM 的文件,找到产生该文件的命令。 提示一下命令是:
/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp
# find命令查找文件
find ./biotreeTest/rmDuplicate/ -name *.bam
# 用samtools 的 view命令查看bam文件,-H选项输出文件的头部注释
samtools view -H ./biotreeTest/rmDuplicate/picard/paired/tmp.sorted.bam
产生该文件的命令在最底部,如下
image.png
- 根据上面的命令,找到我使用的参考基因组
/home/jianmingzeng/reference/index/bowtie/hg38
具体有多少条染色体。
# 找到含有@SQ的行,打印出第二列,去处所有含'_'的行,然后计数
samtools view -H ~/rmDuplicate/samtools/single/tmp.sorted.bam | grep @SQ | awk '{print $2}' | grep -v '_' | wc -l
# samtools view -H ~/rmDuplicate/samtools/single/tmp.sorted.bam | grep @SQ | awk '{print $2}' | grep -v '_' | sed -n '$='
统计出共有25条染色体
- 上面的后缀为
BAM
的文件的第二列,只有 0 和 16 两个数字,用cut/sort/uniq
等命令统计它们的个数。
samtools view ~/rmDuplicate/samtools/single/tmp.sorted.bam | awk '{print $2}' | sort -n | uniq -c
# samtools view ~/rmDuplicate/samtools/single/tmp.sorted.bam | cut -f 2 | sort -n | uniq -c
- 重新打开
rmDuplicate/samtools/paired
文件夹下面的后缀为BAM
的文件,再次查看第二列,并且统计
samtools view ./biotreeTest/rmDuplicate/samtools/paired/tmp.sorted.bam | cut -f 2 | sort -n | uniq -c
# samtools view ./biotreeTest/rmDuplicate/samtools/paired/tmp.sorted.bam | awk '{print $2 }' | sort -n | uniq -c
- 下载
http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
文件,并且解压,查看里面的文件夹结构, 这个文件有2.3M,注意留心下载时间及下载速度。
wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
unzip sickle-results.zip
tree sickle-results
image.png
- 解压
sickle-results/single_tmp_fastqc.zip
文件,并且进入解压后的文件夹,找到fastqc_data.txt
文件,并且搜索该文本文件以>>
开头的有多少行?
cd ~/sickle-results
unzip ./single_tmp_fastqc.zip
tree
cd
less -SN ~/sickle-results/single_tmp_fastqc/fastqc_data.txt
cat ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | sed -n '/^>>/p' | wc -l
# cat ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | grep '^>>' | wc -l
# cat ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | awk '/^>>/{print $0}' | wc -l
18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss
文件,去NCBI找到TP53/BRCA1
等自己感兴趣的基因对应的 refseq数据库
ID,然后找到它们的hg38.tss
文件的哪一行。
https://www.ncbi.nlm.nih.gov/gene/7157
wget -c http://www.biotrainee.com/jmzeng/tmp/hg38.tss
cat ~/hg38.tss | grep -n NM_000546
- 解析
hg38.tss
文件,统计每条染色体的基因个数。
less -SN hg38.tss | cut -f 2 | grep -v '_' | sort -n | uniq -c
- 解析
hg38.tss
文件,统计NM
和NR
开头的,熟练了解NM
和NR
开头的含义
cat ~/hg38.tss | awk '/^NM|^NR/{print $1}' | wc -l
cat ~/hg38.tss | awk '/^NM/{print $1}' | wc -l
cat ~/hg38.tss | awk '/^NR/{print $1}' | wc -l
# cat ~/hg38.tss | awk '{print $1}' | cut -c 1-2 | sort -n | uniq -c