2022-02-24 MATTF

2022-02-24  本文已影响0人  千容安

处理师姐的数据作氨基酸频率图。因有两组样本,单个样本的CDR3序列有5000+条,muscle只能支持<500的序列,故试用MATTF处理大量序列。
安装MAFFT要先安装Ubuntu。试在Microsoft Store中获取Ubuntu,但打开后闪退。使用用管理员权限进入命令提示符,输入wsl --install -d Ubuntu


不知道为什么下载的有点慢

下载一下午后报错了,暂时先不下了,借用老师的linux服务器跑程序。
在 putty窗口中,运行以下命令以下载 MAFFT 包
wget https://mafft.cbrc.jp/alignment/software/mafft_7.503-1_amd64.deb
遇到报错:

(错误尝试:
输入sudo yum install -y ca-certificates

输入apt-get install sudo同样报错
输入apt-get install -y ca-certificates没有报错但也不能解决问题)
了解到:

rpm包和deb包是两种Linux系统下最常见的安装包格式,在安装一些软件或服务的时候免不了要和它们打交道。
rpm包主要应用在RedHat系列包括 Fedora等发行版的Linux系统上,
deb包主要应用于Debian系列包括现在比较流行的Ubuntu等发行版上。

解决方法:在wget后添加引号内的内容
wget --no-check-certificate https://mafft.cbrc.jp/alignment/software/mafft_7.503-1_amd64.deb
安装软件包
sudo dpkg -i mafft_7.503-1_amd64.deb
检查位置和版本:


输入mafft进入
出现一些选择:

这个参数我不知道输入什么,搜索不到,蒙了一个'no'

然后出了指示:

重启后,找不到N1.txt,发现MATTF有网页版可以在线比对:
MAFFT alignment and NJ / UPGMA phylogeny (cbrc.jp)
将得到的fasta文件用xls打开,筛选删去>开头的及其他非序列内容。删除B、C列无用内容。

发现MAFFT比对后的fasta文件的序列长度有35、60个字节两种,故分开两个文件导入R,其他画图代码与上一篇简书不变
setwd("C:\\Users\\Administrator.DESKTOP-4UQ3Q0K\\Desktop")
library(ggseqlogo)
library(stringr)
library(ggsci)
library(tidyverse)
seq<-read.csv("N1后 35.csv")
p1 = ggseqlogo(as.character(seq$cdr3nt), method = 'prob',col_scheme="taylor") +
  theme_classic() +
  scale_y_continuous(labels = scales::percent)
p1
p2 = ggseqlogo(as.character(seq$cdr3nt), method = 'bits') +
  theme_classic() +
  scale_y_continuous(labels = scales::percent)
p2


我觉得这两个图有点奇怪。。但因为比对后的结果里把CDR3开头的C放在中间,所以图中也在中间。
待解决

上一篇下一篇

猜你喜欢

热点阅读