Linux019 生信人的linux考试题

2020-08-22 本文已影响0人 caoqiansheng

参考来源

在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

mkdir -p 1/2/3/4/5/6/7/8/9

2.在创建好的文件夹下面，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ，里面创建文本文件 me.txt

# 使用相对路径
touch 1/2/3/4/5/6/7/8/9/me.txt
# 使用绝对路径
# touch /home/caoqiansheng/biotreeTest/1/2/3/4/5/6/7/8/9/me.txt

前两题效果

在文本文件 me.txt 里面输入内容:
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?

# 使用vim编辑器打开me.txt
vim  1/2/3/4/5/6/7/8/9/me.txt
# 输入i进入插入模式
i
# 输入文本
Go to: [http://www.biotrainee.com/](http://www.biotrainee.com/)
I love bioinfomatics.
And you ?
# 按 ESC 键退出插入模式回到普通模式，再按下 ：，进入命令行模式，输入wq，保存数据并退出vim
# 查看me.txt内容
cat 1/2/3/4/5/6/7/8/9/me.txt

image.png

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

# 在文件夹1所在目录，使用rm -r命令删除
rm -r 1

5.在任意文件夹下面创建 folder1~5这5个文件夹，然后每个文件夹下面继续创建 folder1~5这5个文件夹，效果如下

mkdir -p folder{1..5}/folder{1..5}

image.png

在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ，内容也要一样。(这个题目难度超纲，建议一个月后再回过头来做)

# xargs 命令将传递echo命令，-n参数指定次数，cp -v显示拷贝详细的进行步骤
echo folder{1..5}/folder{1..5} | xargs -n 1 cp -v 1/2/3/4/5/6/7/8/9/me.txt

xargs 是给命令传递参数的一个过滤器，也是组合多个命令的一个工具,可以将管道或标准输入（stdin）数据转换成命令行参数，也能够从文件的输出中读取数据,
xargs 也可以将单行或多行文本输入转换为其他格式，例如多行变单行，单行变多行。
xargs 默认的命令是 echo，这意味着通过管道传递给 xargs 的输入将会包含换行和空白，不过通过 xargs 的处理，换行和空白将被空格取代。
xargs 是一个强有力的命令，它能够捕获一个命令的输出，然后传递给另外一个命令。之所以能用到这个命令，关键是由于很多命令不支持|管道来传递参数，而日常工作中有有这个必要，所以就有了 xargs 命令
命令格式：
somecommand |xargs -item command
参数：
-a file 从文件中读入作为sdtin
-e flag ，注意有的时候可能会是-E，flag必须是一个以空格分隔的标志，当xargs分析到含有flag这个标志的时候就停止。
-p 当每次执行一个argument的时候询问一次用户。
-n num 后面加次数，表示命令在执行的时候一次用的argument的个数，默认是用所有的。
-t 表示先打印命令，然后再执行。
-i 或者是-I，这得看linux支持了，将xargs的每项名称，一般是一行一行赋值给 {}，可以用 {} 代替。
-r no-run-if-empty 当xargs的输入为空的时候则停止xargs，不用再去执行了。
-s num 命令行的最大字符数，指的是 xargs 后面那个命令的最大命令行字符数。
-L num 从标准输入一次读取 num 行送给 command 命令。
-l 同 -L。
-d delim 分隔符，默认的xargs分隔符是回车，argument的分隔符是空格，这里修改的是xargs的分隔符。
-x exit的意思，主要是配合-s使用。。
-P 修改最大的进程数，默认是1，为0时候为as many as it can ，这个例子我没有想到，应该平时都用不到的吧。

再次删除掉前面几个步骤建立的文件夹及文件
rm命令

8.下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件，后在里面选择含有 H3K4me3 的那一行是第几行，该文件总共有几行。

# wget命令下载文件
wget http://www.biotrainee.com/jmzeng/igv/test.bed
# grep命令查找文件关键词
grep -n H3K4me3 test.bed
# wc(Word Count)命令统计指定文件中的字节数、字数、行数
wc test.bed

image.png

下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件，并且解压，查看里面的文件夹结构

# 下载文件
wget  http://www.biotrainee.com/jmzeng/rmDuplicate.zip
# 解压
unzip rmDuplicate.zip
# 查看文件夹结构
tree rmDuplicate

image.png

10.打开第9题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚生物信息学里面的SAM/BAM 定义是什么。

# 进入rmDuplicate/samtools/single
cd ./rmDuplicate/samtools/single
# 查看sam文件
less -SN tmp.sam
# 或使用相对/绝对路径查看
# less -SN /home/caoqiansheng/biotreeTest/rmDuplicate/samtools/single/tmp.sam
#  less -SN ./rmDuplicate/samtools/single/tmp.sam

SAM：SAM (Sequence Alignment/Map) 格式是一种通用的比对格式，用来存储reads到参考序列的比对信息。
BAM：BAM是SAM的二进制形式

11.安装 samtools 软件
linux软件安装使用conda，详见
Linux009 Ubuntu软件安装
 Linux010 Miniconda安装生信软件

# 新建测试环境
conda create -n test
# 激活新建环境
conda activate test
# conda安装过程，所有步骤均选yes
conda install -y samtools
samtools --help

但是在运行samtools时发现报错
samtools: error while loading shared libraries: libtinfow.so.5: cannot open shared object file: No such file or directory
解决办法参考 https://www.jianshu.com/p/9ae2219e237b，使用conda-forge库安装ncurses
conda install -c conda-forge ncurses

打开后缀为BAM 的文件，找到产生该文件的命令。提示一下命令是：
/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp

# find命令查找文件
find ./biotreeTest/rmDuplicate/ -name *.bam
# 用samtools 的 view命令查看bam文件，-H选项输出文件的头部注释
samtools view -H ./biotreeTest/rmDuplicate/picard/paired/tmp.sorted.bam

产生该文件的命令在最底部，如下

image.png

根据上面的命令，找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

# 找到含有@SQ的行，打印出第二列，去处所有含'_'的行，然后计数
samtools view -H ~/rmDuplicate/samtools/single/tmp.sorted.bam | grep @SQ | awk '{print $2}' | grep -v '_' | wc -l 
# samtools view -H ~/rmDuplicate/samtools/single/tmp.sorted.bam | grep @SQ | awk '{print $2}' | grep -v '_' | sed -n '$='

统计出共有25条染色体

上面的后缀为BAM 的文件的第二列，只有 0 和 16 两个数字，用 cut/sort/uniq等命令统计它们的个数。

samtools view ~/rmDuplicate/samtools/single/tmp.sorted.bam | awk '{print $2}' | sort -n | uniq -c 
# samtools view ~/rmDuplicate/samtools/single/tmp.sorted.bam | cut -f 2 | sort -n | uniq -c

重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件，再次查看第二列，并且统计

samtools view ./biotreeTest/rmDuplicate/samtools/paired/tmp.sorted.bam | cut -f 2 | sort -n | uniq -c
#  samtools view ./biotreeTest/rmDuplicate/samtools/paired/tmp.sorted.bam | awk '{print $2 }' | sort -n | uniq -c

下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解压，查看里面的文件夹结构，这个文件有2.3M，注意留心下载时间及下载速度。

wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
unzip sickle-results.zip
tree sickle-results

image.png

解压 sickle-results/single_tmp_fastqc.zip 文件，并且进入解压后的文件夹，找到 fastqc_data.txt 文件，并且搜索该文本文件以 >>开头的有多少行？

cd ~/sickle-results
unzip ./single_tmp_fastqc.zip
tree
cd
less -SN  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt
cat  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | sed -n '/^>>/p' | wc -l
# cat  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | grep '^>>' | wc -l
# cat  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | awk '/^>>/{print $0}' | wc -l

18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件，去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID，然后找到它们的hg38.tss 文件的哪一行。
https://www.ncbi.nlm.nih.gov/gene/7157

wget -c http://www.biotrainee.com/jmzeng/tmp/hg38.tss 
cat ~/hg38.tss | grep -n NM_000546

解析hg38.tss 文件，统计每条染色体的基因个数。

less -SN hg38.tss | cut -f 2 | grep -v '_' | sort -n | uniq -c

解析hg38.tss 文件，统计NM和NR开头的，熟练了解NM和NR开头的含义

cat ~/hg38.tss | awk '/^NM|^NR/{print $1}' | wc -l 
cat ~/hg38.tss | awk '/^NM/{print $1}' | wc -l
cat ~/hg38.tss | awk '/^NR/{print $1}' | wc -l
# cat ~/hg38.tss | awk '{print $1}' | cut -c 1-2 | sort -n | uniq -c

Linux019 生信人的linux考试题

参考来源

猜你喜欢

热点阅读