计算生化

SMILES 和 SMARTS 式

2019-04-17  本文已影响3人  爱折腾的大懒猪

SMILES

SMILES是简化分子线性输入的方法(Simplified molecular input line entry specification), 用字符串来描述分子结构, 由Arthur Weininger和David Weininger于20世纪80年代晚期开发[1],并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.)修改和扩展。2007年Blue Obelisk提出了开放标准的OpenSMILES项目, 提出了一些新的SMILES功能和规范.

SMILES被广泛应用于分子结构的输入, 在多款分子模拟软件中均支持, 扩展名一般为.smi.

最著名的是由Daylight公司开发定义的SMILES, 其说明参考Daylight-SMILES-theory, 例子和教程参看Daylight-SMILES Tutorial.

典范SMILES

典范SMILES(Canonical SMILES)保证每个化学分子只有一个SMILES表达式。一般一个分子结构可以有多个SMILES表达方法, 如CCO,OCC,C(O)C均代表乙醇. 典范SMILES通过算法, 算出唯一一种SMILES来代表结构, 从而保证结构在数据库中被正确检索. 典范SMILES常用于分子数据库的索引。

关于唯一SMILES式,一般使用深度优先遍历树来生成编码. 例如CANGEN方法.[2]

典范SMILES由5条主规则构成:

原子

原子用在方括号内的化学元素符号表示。
例如[Au]表示“金”。满足以下条件时可以忽略[]:

上一篇下一篇

猜你喜欢

热点阅读