从rmsk提取序列进行mapping等
2018-12-24 本文已影响16人
苏牧传媒
1.下载rmsk:http://hgdownload.cse.ucsc.edu/goldenPath/mm10/database/rmsk.txt.gz
2.head看:
name有的是相同的3.看第13列的分类:
3.提取目的bed:
awk 'BEGIN{OFS="\t";FS="\t"}{if($13=="ERVL") print $6,$7,$8,$11":"$6":"$7,$10}' rmsk.txt > ERVL.fine.bed
4.提取fasta:
bedtools getfasta -fi /media/shen/6a524d78-97d1-481c-b068-8116a4d007f8/sun/refdata/gencode_GRCm38/GRCm38.chr.fa -bed ERVL.fine.bed -s -name | fold -w 80 > ERVL.fa
5.index:
hisat2-build -p 20 Alu.fa Alu