生信log

生信log34|dbNSFP的phyloP30_score的来源

2023-03-29  本文已影响0人  小周的万用胶囊

dbNSFP数据库收录了PhyloP值的数据,并且是tsv格式的,为了对一下数据库,就去官网找了相关的数据,但是看了一圈并没有现成的tsv。看了一圈资料也没看出怎么得出dbNSFP里面的phyloP这个唯一值怎么来的。后面尝试了很多,才发现原来如此简单:就是把官网上的bw文件转成 bedGraph文件即可,但是这个做法会把7.9G的数据拓展至50G左右,转换数据需慎重。

1、工具准备及其用法

#bigWigToBedGraph
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64.v369/bigWigToBedGraph
#用法
   bigWigToBedGraph in.bigWig out.bedGraph
#其他参数
   -chrom=chr1 - if set restrict output to given chromosome
   -start=N - if set, restrict output to only that over start
   -end=N - if set, restict output to only that under end
   -udcDir=/dir/to/cache - place to put cache for remote bigBed/bigWigs

#bigWigToWig
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64.v369/bigWigToWig
#用法
bigWigToWig in.bigWig out.wig
#其他参数
   -chrom=chr1 - if set restrict output to given chromosome
   -start=N - if set, restrict output to only that over start
   -end=N - if set, restict output to only that under end
   -udcDir=/dir/to/cache - place to put cache for remote bigBed/bigWigs

2、phyloP的数据格式

1.根据示例数据发现,每个fixedStep下面都跟着一系列的数值,
fixedStep chrom=chr1 start=15002 step=1
1.451
1.561
1.671
1.618
1.564
1.51
1.456
...
fixedStep chrom=chr1 start=16003 step=1
1.451
1.561
1.671
1.618
1.564
1.51
1.456
...

2. 转换后的BedGraph文件
chr1    10700   10701   0.088
chr1    10701   10702   0.079
chr1    10702   10703   0.088
chr1    10703   10704   0.079
3. 验证一下dbNSFP里面的数据
CHROM POS phyloP30way_mammalian
1 65565 1.152000
#查找hg38.phyloP30way.bedGraph|
grep '65565' hg38.phyloP30way.out.bedGraph|head -1
chr1    65564   65565   1.152

4、总结

题外话chatGPT真好用,苦于没有数据展示数据的时候想到它了(问就是存储少),放心数据结构我检查过是一样的。


chatGPT提问

参考及数据来源
PhyloP30way
官方工具说明文档

上一篇 下一篇

猜你喜欢

热点阅读