19.大麦不同基因版本id转化
2022-05-10 本文已影响0人
夏大希
方法一、 少数基因可以利用网站直接进行替换
主要用的网站
ensemble plant Hordeum_vulgare - Ensembl Genomes 53
BARLE Gene View (ipk-gatersleben.de)这个网站主要是下载基因序列
可以选择V1版本-V3版本。
大麦的数据有两年没搞了,一转头参考基因组都发到了V3版本,这个麦类研究也是激烈简直掺不忍睹!!!!
GalaxyGalaxy (ipk-gatersleben.de)
这个网站主要的作用是对一段基因序列能够进行多个版本基因的blast,这个功能要比ensemble plant上要好用,但是比起两年前的网站,这个网站的可操作没有那么流畅,这个网站的使用鼓捣了好久。交互性太差。但好在学习后就能使用,就不吐槽了。下边是两年前的使用方法。
image.png
现在这个网站的使用方法
image.png
第一步 序列获取
1.这个网站需要上传自己需要blast的序列,这个序列要在上边的BARLE上去寻找,数据的格式可以选择文件,也可以使用直接粘贴的方式;
2.这个序列将需要找的基因的序列在linux系统中对fasta序列按照基因名字进行批量提取,这个方法明天试试再把代码贴上。
第二步 序列上传
image.png点击粘贴数据或链接,然后修改2地方的名字;也可以点击本地上传;
第三步 进行blast
image.png最后结果会在右边展示
方法二、 对不同版本的CDS序列进行批量blast
第一步 下载不同大麦版本的CDS序列
image.pngV3版本的是从ensemble plant 下载的
##下载CDS序列
wget http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/hordeum_vulgare/cds/Hordeum_vulgare.MorexV3_pseudomolecules_assembly.cds.all.fa.gz
##解压
gunzip http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/hordeum_vulgare/cds/Hordeum_vulgare.MorexV3_pseudomolecules_assembly.cds.all.fa.gz
##建库
##软件的位置在/u2/software/NCBI_blast/ncbi-blast/bin/
makeblastdb -in Hordeum_vulgare.MorexV3_pseudomolecules_assembly.cds.all.fa -dbtype nucl -out morex_v3 -parse_seqids
建库结束后会出来
image.png
依据自己的基因对应的版本,对不同版本的CDS提取
参考(21条消息) 根据序列ID提取fasta序列周欣5518的博客-CSDN博客根据序列名提取序列,一下代码全部是这个大佬的博文中的
# 用grep命令匹配所有有>号的行,即所有序列名字的行,然后另存为文件 ITS_all.name
grep ">" Hordeum_vulgare.MorexV3_pseudomoleculesassembly.cds.all.fa >morex_v3_all.name
## 用sed查找>,并把所有>号删除
sed 's/>//g' morex_v3_all.name >morex_v3.name.txt
将这个文件下载到window电脑上
image.png用excel打开后只有标1的那一列,添加左边的一列(查看基因有几个字节,用left提取),第三列是自己的目标基因,第四列用vlookup查找第一列的内容,然后将第四列内容粘贴到linux新建的get_CDS.name文件里面去
# 在windows下的格式在Linux环境下可能不识别需要转换格式
dos2unix get_CDS.name
## 用perl小程序进行提取
perl ./extract.pl get_CDS.name Hordeum_vulgare.MorexV3_pseudomoleculesassembly.cds.all.fa > select.gen.CDS.fa
image.png