LGC:转录本蛋白编码潜能预测工具

2019-02-20 本文已影响10人生信修炼手册

欢迎关注”生信修炼手册”!

中科院北京基因组研究所搭建了国内的大数据中心BIGD, 拥有海量计算资源，5000以上CPU，8PB以上的存储，借助庞大的计算资源，存储了高通量测序产生的各种组学数据，同时集成了各种分析软件，组成了一个组学数据整合，挖掘的应用体系。

今天要介绍的LGC工具就是整合在BIGD中的一款lncRNA预测软件，源代码保存在BIGD提供的BioCode`数据库中，网址如下

http://bigd.big.ac.cn/biocode/tools/BT000004

同时还提供了在线版本，网址如下

http://bigd.big.ac.cn/lgc

在线工具支持fasta, bed, gtf三种格式的输入文件，示意如下

对于bed和gtf这两种格式而言，还需要指定基因组版本，目前支持以下几种

Human (hg38, GRCh38)
Human (hg19, GRCh37)
Mouse (GRCm38/mm10)
Mouse (NCBI Build 37/mm9)
Fly (dm3, BDGP Release 5)
Zebrafish (Zv9/danRer7)

本地版的安装也很简单，采用了python语言进行开发，只需要下载源代码就可以了，需要注意的是，该软件依赖biopython模块。本地版的用法如下

python lgc-1.0.py  transcript.fa output.txt

第一个参数为转录本对应的fasta格式的序列，第二个参数为输出文件，其内容可以分为
两部分，以#开头的注释行，解释了正文中每一列的含义，如下所示

正文内容如下所示

其中Coding lable那一列标识了转录本的蛋白编码情况。

·end·

—如果喜欢，快分享给你的朋友们吧—

扫描关注微信号，更多精彩内容等着你！