数据库

SMILES & InChI | 化学结构的线性表示法

2019-12-10  本文已影响0人  AspirinCode

SMILES表示法、SMARTS表示法和InChI表示法都是用少量字符表示结构信息的重要方法。

化合物的图表示

可以将一个分子视为一个以原子为节点,结合为边的图。图形可以表示一个原子如何连接到另一个原子。如果已知原子之间的键数,则可以在以后添加氢原子,因此在计算机上表示分子时通常会省略氢原子。
例如,丙烷可以表示为:



图结构中,不考虑原子的位置,仅原子之间的连接很重要,因此即使像“ CCC ”这样忽略它,也可能会想到结构

这样,按照一定的规则分子中的分子结构的表达被称为“ 线性符号 ”。

SMILES表示法

SMILES符号是“线性符号”之一,用于用单行文本表达化合物的结构。它是由David Weininger于1986年采用的,由Daylight Chemical Information Systems开发并共同创建。由于其简单性,它是使用最广泛的线性符号。SMILES具有以下六个缩写。

Simplified Molecular Input Line Entry System: SMILES

SMILES表示法规则

SMILES标记根据某些规则将化学结构转换为字符串:

为了进一步显示三维结构,

Canonical SMILES表示法的规则

先前的规则中,没有关于哪个原子是起点的项目。

实际上,只要将SMILES表示法简单地更改为结构式,它的书写方式就无关紧要。然而,在“检查数据库中是否存在相同的化合物”的情况下,如果表示法不统一,则很麻烦。为此,将发现该化合物应该有一个与该化合物名称的IUPAC名称相对应的SMILES标记。这种SMIELS表示法称为“ Canonical SMILES ”。

Morgan 算法

一种用于对分子中的原子进行优先排序的最广泛使用的算法之一称为“Morgan 算法”。Morgan算法中,原子连通性值是迭代确定的。具体过程如下。

Canonical SMILES

规范的SMILES是根据类似于上述Morgan算法的“ CANGEN算法”生成的。通用(generic)SMILES到规范SMILES的这种转换称为“规范化(canonicalization)”。

问题在于该算法的实现是商业化的。当使用Daylight软件时,会生成相同的SMILES,但是其他开源软件使用独特的算法,即使使用相同的化合物也可以获得不同的SMILES。

SMARTS表示法

SMARTS是SMILES基础之上的改进版。SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。这种搜索的机理是先通过输入的SMILES式重构化学式,再搜索子图的同形;而不是直接通过SMILES式的对比完成的。

InChI

规范的SMILES存在无法自由使用的问题,因为其生成算法是商业性的。史蒂夫·海勒(Steve Heller)和史蒂夫·斯坦(Steve Stein)于1999年提出InChI,以开发可自由使用的化合物的规范表示法。后来,第一个版本在2005年与IUPAC合作宣布。自2009年以来,它一直由一个名为InChI Trust的组织进行管理和开发。

InChI是以人类可以理解的形式编写的分子信息。由于每种化合物都具有不同的InChI,因此可以认为它与化合物名称的IUPAC名称相似。如前所述,与Canonical SMILES的不同之处在于生成算法是非盈利性的,可以自由使用。

InChI:International Chemical Identifier

InChI功能

InChI的发展目标是可以自由使用的标准规范化合物,并具有以下特征。

InChI Key

这是固定长度为25个字符的分子表示形式,也称为哈希InChI。与InChI不同,很少会从不同的分子生成相同的InChIKey。


参考:

  1. https://www.daylight.com/dayhtml/doc/theory/theory.smiles.html

  2. http://opensmiles.org/opensmiles.html

  3. https://www.daylight.com/dayhtml/doc/theory/theory.smarts.html

    DrugAI
上一篇 下一篇

猜你喜欢

热点阅读