20210403-Pubchem-figerprint

2021-04-03  本文已影响0人  野山羊骑士

最常见的化学相似性检索方法有二维结构相似性和三维分子相似性检索。二维结构检索主要是采用分子指纹方法生成的描述符,分子指纹是指示化合物结构特征的一组数据,通常用0和1来表示,1表示分子中含有对应结构,0则表示没有,如图1A为PubChem分子指纹的一部分说明,如果分子中碳原子数量大于或等于2,则第9位为1,如果大于或等于4,则第9位、第10位都为1,以此类推。如果分子中含有碳氧双键结构(即C=O),则第420位为1,同样如果还含有C=S结构则421位也为1,否则为0。PubChem分子指纹一共预设了880种子结构特征,也就是说该分子指纹是一个880位的数组,包含的元素都是0或1。除了图中的子结构以外,PubChem分子指纹还对一些基团的数量有预定义,如第除了PubChem以外,常用的分子指纹还有MACCS、ECFP、Daylight fingerprints等分子指纹,它们的区别就在于子结构的定义以及编码的方式不同。计算得到分子指纹后就可以通过计算相似度(图1B)来比较两个分子之间的相似性。[7]以PubChem分子指纹为例,a为分子A中的子结构数量,b为分子B中的子结构数量,则c为分子A、B共有的结构数量,c的比例越大在一定程度上可以说明A、B分子越相似。因此这些相似度计算都是以c为判断标准,不同计算方法区别在于分母的不同(Hamming系数除外)。其中最常用的是Tanimoto系数,不同方法的比较在参考文献7中有详细阐述,本文不再赘述。

image

图1. A)PubChem分子指纹的部分子结构。B)分子指纹几种相似度计算方法,其中假设有两个分子A和B,则a表示分子A的分子指纹中1的数量,b表示分子B的分子指纹中1的数量,c表示A、B分子指纹中共同为1的数量,m表示分子指纹的总位数。

上一篇下一篇

猜你喜欢

热点阅读