寻找基因组中具特定式样的序列,然后分析其进化特征

2018-07-25  本文已影响0人  Ting_Wang


1 GenBank 获得序列

#要强化对Taxonomy数据库的使用,特别注意使用其ID;然后,建立检索结果的网页链接

构建不同类群的基因组表单  #csv

Geneious --> fasta 格式      #便于准备输入文件

掌握文本文件的读写

# with open('data.txt', 'r') as myfile:

        data=myfile.read().replace('\n', '') 这样的语句更容易理解

准备原有、互补、反向互补和反向序列数据  #用BioEdit

2 用Pthyon的正则表达式模块   import re

构建正则表达式

finditer() 找出目标序列及其位置   #注意和findall()的区别,核心是要懂iterator

用?= --> 寻找overlapped序列  #不可遗漏

例子:

#给出匹配substring

text = 'AATTATAATTAT'

pattern = '(?=(A[AT][AT]))'

regexp = re.compile(pattern)

iter = regexp.finditer(text)

for s in iter:

  ....     print s.groups()

  ....     print s.span()

#输出

 ('AAT',)

(0, 0)

('ATT',)

(1, 1)

('AAT',)

(6, 6)

('ATT',)

(7, 7)

3   用HyPhy分析进化速率及选择压力

极大似然框架下分析:每个位点的替换数、转换速率、颠换速率、转换颠换比、dN、dS及dN/dS等基本特征

#优点是可在系统发育背景下进行估算,避免一些偏差

Spearman rank-correlation coefficient 和 Wilcoxon rank sum test

 #非参分析:估算值之间的相关性和差异显著性

4 借助机器学习途径了解旁侧序列的文本特征

特定的特征

先试用较简单的模型和最近邻居聚类算法

上一篇 下一篇

猜你喜欢

热点阅读