RDKit | 操作与实践

扩展连通性指纹(Extended Connectivity Fi

2020-04-17  本文已影响0人  最会设计的科研狗

目录

一、ECFPs简介

本文参考自ChemAxon的介绍。英文版在这里。细节部分与rdkit略有不同,但原理基本一致。

扩展连通性指纹(Extended-Connectivity Fingerprints,ECFPs)是一种圆形拓扑指纹,可用于分子表示、相似性搜索、构效关系建模。它在药物设计中有诸多应用,是最受欢迎的相似性比对工具。

二、应用

ECFPs是非常高效且流行的搜索工具,并有着广泛的应用。

ECFPs最早应用在高通量筛选(high-throughput screening,HTS)中,用于分析HTS中假阳性和假阴性先导物。此外,ECFPs也经常应用在基于配体的虚拟筛选中,用来判断化合物是否有活性。大量的实验结果表明,这种圆形拓扑指纹是效果最好的搜索工具之一。

在药物研究中,许多领域都涉及到相似性搜索,都用到了分子结构中蕴含的大量信息,例如化合物聚类,以及化合物库分析等。

除了相似性搜索,ECFPs也可以用来识别是否含有一个特定的子结构。因此,它也经常应用在QSAR和QSPR建模中(例如ADMET属性预测),并优化先导物性质。

三、特性

ECFPs的主要属性有如下几点:

四、与路径指纹的对比

基于路径的指纹(path-based fingerprints)广泛用于子结构搜索中预过滤(pre-filtering)。与这种指纹相反,ECFPs并不适合子结构搜索,而适合快速高效地筛选整个分子和进行相似性搜索。ECFPs可以为相似性搜索提供充分的结果,更接近药物化学家的需求。

五、表示方法

ECFPs在ChemAxon中有如下两种表示方式。

1.整数标识列(list of integer identifiers)

2.定长比特串(fixed-length bit string)

六、生成流程

可基于ChemAxon的GenerateMD命令行,或API生成,感兴趣的可以自行查看。

1.初始化原子标识符

2.标识符的迭代更新

Fig. 1. 对某一特定原子进行迭代更新的示意图

3.标识符去重

Fig. 2. 从分子到整数标识列的生成过程 Fig. 3. 从整数标识列到定长比特串的生成过程

七、参数设置

ChemAxon中的ECFPs有一系列的参数,可以通过XML来进行设置。

1.主要参数

主要参数有3个:ECFPs的最大直径、指纹长度、标识符频数。

这个参数规定了每个原子要考虑的最大圆形邻域。默认直径是4。这是个很重要的参数,会影响子结构的数量和大小,从而影响整数标识列的长度,也会影响到定长比特串的表示。

ECFPs可以通过该参数进行区分。例如,ECFP_4表示直径为4,ECFP_6表示直径为6(rdkit中的参数为半径radius,当radius=2时,与ECFP_4等价)。

根据Rogers and Hahn的报道,直径如何取值取决于具体需求。通常直径为4时,可以满足相似性搜索和聚类需求。对于活性预测,有大结构片段通常会比较有利,因此可以尝试6或8。

这个参数指定了定长比特串的长度。默认是1024位。

当增加长度时,会减少冲突的几率,从而减少信息的损失,但需要花更多的空间和时间来存储和计算。

这个参数控制是否要记录每个整数标识符出现的总次数。默认是不记录,即每个子结构只存储1次。

2.原子属性

在ECFPs中,原子属性集也是一个重要的参数,决定了原子的特性。不同的属性会产生不同的圆形指纹,可用于不同的需求中。

默认的ECFP参数适用于大多数的应用场景,尤其在基于子结构特异信息的相似性搜索中。默认情况下,对每个原子的以下信息会被考虑进来:

其他的内置属性还有:质量信息、连接信息、键信息、立体信息等。如果想修改这些配置,可以在XML中自己定义。

八、功能基指纹

ECFP默认的标识符包含了高度特异的原子信息,可以表示大量的子结构特征。然而,在不同的场景中,可能需要不同的抽象方式。例如,在环上某一位置进行氯取代或溴取代时,它们的功能基本是等价的,但是ECFP认为它们是两种不同的结构。另一个使用圆形指纹的新方向就是归纳每个原子的药效团,也就是将ECFPs转换为拓扑药效团指纹。

这些变体,叫做功能基指纹(Functional-Class Fingerprints,FCFPS),它们对ECFP进行了泛化处理,更关注原子在功能上所发挥的作用,而不关注是否是特异的。

ChemAxon也支持FCFPs,可通过XML来自行定义。

九、特征可视化

JChem提供了查看ECFP指纹结构的功能。ECFP可以表示为整数标识列,或定长比特串,这些特征中的某一位代表了输入分子中一个特定的子结构。ECFPFeatureLookup类可以根据给定的整数标识和某个位来提取出子结构。

在某些应用场景中,需要对特定化合物的指纹进行对比,以便得出有哪些特征很重要。这时,展示出真实的子结构就会非常直观地看到结果。

十、rdkit计算ECFPs

在rdkit中指纹使用位向量Bit Vector来表示,位向量是一种可以高效存放二进制值的容器。rdkit中包含了两种内部存储方式不同的指纹,分别是SparseBitVects和ExplicitBitVects。这两种类型可以轻易地进行转换,用于不同的目的。

>>> from rdkit.Chem import AllChem
>>> mol = Chem.MolFromSmiles('Cc1ccccc1')
>>> AllChem.GetMorganFingerprint(mol, radius=2)
<rdkit.DataStructs.cDataStructs.UIntSparseIntVect at 0x7fbbe9654ee0>
>>> AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, nBits=1024)
<rdkit.DataStructs.cDataStructs.ExplicitBitVect at 0x7fbbe9493490>

关于分子指纹的更多操作,请见这里

上一篇 下一篇

猜你喜欢

热点阅读