视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
针对蛋白质复合物Other类型的打分函数
2025-09-29 17:02:43 责编:小OO
文档
[Article]

www.whxb.pku.edu.cn

物理化学学报(Wuli Huaxue Xuebao )

Acta Phys.鄄Chim.Sin .,2006,22(5):622~626

Received:November 17,2005;Revised:February 16,2006.

Correspondent,E ⁃mail:wzchen@bjut.edu.cn,cxwang@bjat.edu.cn;Tel:010⁃67392724.

国家自然科学基金(30400087,10574009),教育部博士学科点专项基金(20040005013),北京市自然科学基金(5042003)资助项目

ⒸEditorial office of Acta Physico ⁃Chimica Sinica

针对蛋白质复合物Other 类型的打分函数

沈龙珠

李春华马晓慧常珊

陈慰祖∗

王存新∗

(北京工业大学生命科学与生物工程学院,北京100022)

摘要

在不同类型复合物结合界面的物理化学特征不同的基础上,针对较难预测的Other 类型复合物设计出特

异性打分函数,用于在对接过程中挑选出有效结构.该函数由原子接触能(E ACE )、范德华和静电相互作用能组成,通过多元线性回归方法获得各项的权重系数.对来自CAPRI benchmark1中17个Other 类复合物例子进行打分测试.结果表明,组合打分能够刻画出Other 类型复合物单体间相互作用的特征,反映出复合物形成前后的能量变化,具备一定的从众多样本中筛选出有效结构的能力.相对于残基成对势(RP),该组合打分获得了更高的打分成功率.对CAPRI 第八轮竞赛中两个结构预测模型进行打分排序,该组合打分也体现出强于RP 的鉴别有效结合模式潜力.关键词:打分函数,原子接触能,残基成对势,

Other 类复合物,

CAPRI

中图分类号:O1,

Q617

Scoring Function for the Other 鄄type Protein Complexes

SHEN,Long ⁃Zhu

LI,Chun ⁃Hua MA,Xiao ⁃Hui

CHANG,Shan

CHEN,Wei ⁃Zu ∗

WANG,Cun ⁃Xin ∗

(College of Life Science and Bioengineering,Beijing University of Technology,Beijing 100022,P.R.China )

Abstract

Based on the conclusion that different complexes have distinctive chemo ⁃physical characters at interfaces,

a specific scoring function was designed to select the effective structures in protein ⁃protein docking procedure for the Other ⁃type protein complexes,which are hard to predict.This scoring function was composed of the atomic contact energy (E ACE ),van der Waals,and electrostatic interaction energies.The weight of each term was obtained by the multiple linear regression approach.The test result on 17Other ⁃type complexes from CAPRI benchmark1demonstrated that the combinatorial scoring function could delineate the interaction feature of the Other ⁃type complexes and reflect the energy change during the complex formation,and it has certain capacity of discriminating effective structures from numbers of the docked modes.Compared to the residue pair potential (RP),the combinatorial score could gain a higher success rate.Ranking the predicted models of two targets in CARPI round 8,the combinatorial score also exhibits greater potential to distinguish the effective association modes.Keywords :

Scoring function,

Atomic contact energy,

Residue pair potential,

Other ⁃type complexes,

CAPRI

分子对接是指从蛋白质分子单体三维结构出发,采用计算机模拟方法预测复合物结构的技术.该方法的研究对于探讨分子识别机理有重要的理论价值,并在复合物结构预测方面有广泛的应用前景.为

推动蛋白质对接算法的发展,欧洲生物信息学中心于2001年发起CAPRI [1](critical assessment of predic ⁃tion of interactions)蛋白质⁃蛋白质复合物结构预测竞赛,迄今已经成功举办了八轮比赛.

May

622

按照单体分子坐标的来源,可以将对接划分为

三种类型,即结合态(Bound)对接、半结合态(Semi-bou nd)对接和非结合态(Unbound)对接.Bound对接是指组成复合物的两个单体的分子坐标均来自复合

物结构;Unbound对接是指两单体坐标均来自

的结构;Semibound对接则是指两单体之一来自独

立结构,另一个来自复合物结构.在CAPRI比赛初

期(1~2轮[2]),主要目标是研究Semibound对接.在这一阶段,所选目标的Unbound单体在结合前后构象

变化相对较小.许多对接方法将蛋白单体视为刚体,

应用快速傅立叶变换(FFT)算法进行全空间采样[3],使用主要基于几何互补原则的打分函数,从大量对

接样本中筛选出最佳结果.在分子柔性处理方面,主

要采用分子力学方法优化对接结构,或软化分子表

面间接地考虑分子柔性[4],但这并不能够很好地适应那些结合前后分子构象变化大的情况.因此,优化打

分函数和考虑分子柔性成为后阶段分子对接算法的

主要研究方向[5].在第二阶段CAPRI(3~5轮[6]),出现了许多需要先对分子进行同源模建然后再进行对接

的例子,这无疑对结构预测又提出了新的挑战.此

外,这一阶段的对接目标分子结合前后构象变化程

度也高于上一阶段[7],势必要求在对接过程中加入分子柔性信息.分子柔性的考虑主要从侧链和主链两

个角度出发:针对侧链柔性发展出了侧链转子库[8]、

多拷贝优化[9]等技术;针对主链的柔性,发展出了多

构象叠落[10⁃11]、运动域分块[12]等方法.在打分方面也

有所进展,涌现出诸多新的打分函数[6].然而,从历次CAPRI竞赛结果看,参与者提交的预测结构的排序

结果仍然在一定程度上缺乏可靠性.因此,进一步改

进打分函数是以后CAPRI的一个重要目标[6].在最近一轮CAPRI(第8轮)中,首次设立了与结构预测平行的打分能力评价,充分显示了发展准确快速的打分方案的迫切性和重要的学术意义.

按照构造方法,打分函数主要划分为三种类型,

即基于物理的打分函数,经验的打分函数和基于知

识的打分函数.基于物理的打分函数是依据物理化

学原理将结合自由能表示为具有物理意义的多

项式之和.尽管此类方法相对准确率较高,但由于计

算量巨大,只适用于很少的对接程序之中.经验的打

分函数将结合自由能计算表达式分解成带有权重的

氢键、静电、疏水效应以及熵效应等项的加和,分别

计算各项贡献,权重系数通过回归方法从实验数据

拟合得到.ICM⁃DISCO[13],RosettaDock[8]等分子对接程序均采用了经验函数.基于知识的函数使用统计的方法分析实验测得复合物结构,从中提取相互作用规律.原子接触能[14]和残基成对势[15]是目前应用较为普遍的统计函数.

尽管目前已经发展出多种类型打分函数,但是对于不同类型复合物,同一打分函数的评价能力有所差异.这主要是由于不同复合物类型的界面特征存在一定差异造成的.Jackson[16]发现蛋白酶/抑制剂与抗原/抗体类型复合物间的相互作用形式明显不同.我们小组[17]已有的研究表明,针对不同的复合物类型采取不同的过滤策略,可以提高对接预测成功率.Vajda等[18]根据预测难度将蛋白质复合物划分为五类,较难预测的第四和第五类主要为除了酶/抑制剂和抗原/抗体外的Other类型.这类复合物往往在生物体内信号转导、协同作用等方面起着重要作用,具备药物识别靶点的基本特征,有着重大的理论研究价值和潜在的应用前景.本工作以此为出发点,通过线性回归的方法拟合了一套适用于Other类型复合物的打分函数,这套打分函数整合了基于物理和基于知识的势函数,由原子接触势、范德华和静电相互作用能组成.

1方法与研究体系

1.1方法

在本工作中,打分函数的表达形式如下: Score=w1E ACE+w2E attr vdw+w3E rep vdw+w4E sa ele+w5E sr ele+

w6E la ele+w7E lr ele(1)其中,E ACE、E attr vdw、E rep vdw、E sa ele、E sr ele、E la ele、E lr ele分别表示去溶剂化能,范德华吸引、排斥作用,短程静电吸引、排斥作用,长程静电吸引、排斥作用;w1、w2、w3、w4、w5、w6、w7为权重系数.

去溶剂化能采用原子接触势模型(ACE)[14],可以表示为

E ACE=

i∑j

∑e ij(2)其中e ij为原子i、j之间的接触能,求和遍及所有距离小于0.6nm的原子对.模型包含了侧链熵(S sc)效应,在很多近似计算中取代(ΔG solv-TΔS sc)项作为对结合自由能的部分贡献.

静电项采用介电距离依赖的库仑势模型计算:

E ele=q i q j

4πε0εr r ij(3)其中,ε0为真空介电常数,相对介电常数εr=4r ij,r ij 为原子i和j之间的距离,q i、q j分别为原子i和j的

623

Acta Phys.鄄Chim.Sin.(Wuli Huaxue Xuebao ),2006

Vol.22

电荷.以0.5nm 作为截断距离,划分长程、短程相互作用.范德华吸引和排斥作用由以下方程计算[19]:

E attr

vdw

=i

∑j

∑εij

r m ,ij r ij

()12

-2r m ,ij

r ij

()6

[]r ij ≥0.r

m ,ij

(4)E rep vdw

=i ∑j

∑10.0×1-r

ij 0.r m ,ij

()

r ij <0.r

m ,ij

(5)

其中r m ,ij 为范德华半径之和,εij 是势阱深乘积的平方根,且函数在r ij =0.r m ,ij 处连续.范德华排斥项采用非标准的Lennard ⁃Jones 形式,是为了忽略分子对接中由于结构未经优化出现某些原子间距离过近而带来的能量过大.力场参数取自CHARMM19力场[20].1.2体

从蛋白质复合物标准集Benchmark1.0[21]中挑选了17个Other 类型的蛋白质复合物进行打分函数的训练和测试(见表1).使用FTDock 程序[3]

对每个复合物分别进行Bound 和Unbound/Semibound 对接,各产生30000个对接构象,取L_RMSD(root ⁃mean ⁃square displacement of the ligand)较小的2000个Bound 对接构象来拟合打分函数,将全部Bound 、Unbound/Semibound 对接构象用于测试打分函数的区分能力.

CAPRI 8预测包括Target 22和Target 23两个结构,它们分别是剪接体复合物(U5⁃15K/U5⁃52K)和GTPase GBP1结构域同源二聚体,同属于Other 类

型.应用组合打分函数以及RP 对CAPRI 服务器提供的271个(Target 22)和385个(Target 23)预测结构进行打分排序,选择最佳的10个构象提交.

2结果与讨论

2.1组合打分函数及评价能力

用R 软件[22]进行多元线性回归,以能量值对L_RMSD 作数据拟合.回归方程检验和回归系数检验表明响应值与自变量间存在显著的线性关系.从而确定Other 类型复合物组合打分函数(见(1)式)的形式为

Score=0.0877E ACE +0.2880E attr

vdw

+0.09E rep vdw +0.0431E sa ele +0.0580E sr ele +0.0817E la

ele +0.0791E lr ele

(6)

表1用于训练和测试打分函数的17个Other 类型

复合物[21]

Table 1

The 17Other ⁃type complexes used for training and testing the scoring function [21]

Either component of the complex is bound.Complex

Receptor description

Ligand description 1A0O *Che A Che Y

1ATN *Actin Deoxyribonuclease I

1AVZ HIV ⁃1NEF FYN tyrosin kinase SH3domain 1EFU *

E.coli Ef ⁃Tu

Efts 1FIN CDK2cyclin ⁃dependant kinase 2Cyclin 1FQ1CDK2

KAP 1GLA

*Glycerol kinase GSF III 1GOT Transducin Gt ⁃α,Gi ⁃αchimera

Gt ⁃β⁃γ1IGC *IgG1Fab Fragment Protein G

1KKL HPr Kinase

Phosphocarrier Protein Hpr 1L0Y

T Cell Receptor βchain

Exotoxin A11SPB *Subtilisin

Subtilisin prosegment 1WQ1RAS activating domain RAS 2BTF *β⁃Actin Profilin

2MTA Methylamine dehydrogenase Amicyanin

2PCC Cytochrome C Peroxidase Iso ⁃1⁃Cytochrome C 3HHR

*

Human growth hormone

Receptor

表2组合打分函数的测试结果

Table 2The testing result of the combinatorial scoring function

L_RMSD (root ⁃mean ⁃square displacement of the ligand)is obtained by comparing the positions of the ligand main ⁃chain atoms in the predicted model and the experimental determined structure after a least ⁃square superposition of the receptors.One hit is defined as the decoy with L_RMSD less than 1nm;

The number of hits within top 10conformations;

-No structure with L_RMSD <1nm obtained in 30000docked decoys

Bound

Semibound/Unbound 1st hit of 1st hit hits *

1st hit of 1st hit hits *

Training set(15)1AVZ 20.11--01A0O 10.1723160.70201ATN 120.174090.20011SPB 10.143360.14121FIN 10.14110---1GLA 10.13---1GOT 10.15110---1WQ110.168880.91111KKL 10.1973630.95502BTF 10.159530.612MTA 10.74251450.93002PCC 10.176520.98033HHR 10.1227---Test set(2)1FQ180.40425740.96201EFU

1

0.162

10

5

0.941

1

1IGC 420.7790740.99201L0Y ------

624

类型的打分函数

图1RP和组合打分对17个Semibound/Unbound对接例子打分成功率比较

Fig.1Comparison of success rates between RP and the combinatorial score on17

semibound/unbound docking cases 表3组合打分和RP对CAPRI8预测模型排序结果的比较Table3Comparison on the ranking results of the predicted models of CAPRI8by the combinatorial score and RP a the rank of models officially published by CAPRI on the web (http://capri.ebi.ac.uk/round8/round8.html);

b the rank of the combinatorial score;

c the rank of RP;

-the model not found in the top20models ranked by the score functions

Pub a Com b Pub a Com b RP c M011-M11115-M042-M012--M27035M27316-M12-M1494--M5352M46518-M33M24161717 M1917-M1657--M15281M038--M181916M029--M0510-M0510--

RP c

-

-

-

-

5

-

-

-

9

-

Model Target22Model Target23

表2总结了组合打分对17种复合物打分评价的结

果.有效结构定义为L_RMSD小于1nm的结构.对

于训练集,15个Bound对接打分排序中11个体系

的有效结构都排到了第1位,12个体系的第1个有

效结构的L_RMSD都小于0.2nm,而且前10名样

本中有7个获得了5个或5个以上的有效结构.对Semibound/Unbound对接打分排序表明,在全部获

得有效结构的例子中,有效结构有半数排到了前10

位,两个体系(1ATN,1SPB)的第1个有效结构具有

较小的L_RMSD(0.200nm,0.141nm).对于测试集

样本1EFU,Bound对接排序的前10位全部被有效

结构占有,而且排名第1的有效结构的L_RMSD仅

为0.162nm.Semibound对接也在前10位排列中捕

获到5个有效结构.对样本1FQ1,Bound对接中,第1个有效结构的排位和L_RMSD分别为8和0.404 nm.Semibound对接中,第一个有效结构的排位为574.对于1L0Y体系,无论在Bound还是在Unbound

搜索中都没有发现有效结构.这主要是因为,该体

系接触面积小(11.3nm2),而且两个单体分子都是Unbound,具有相当的柔性,因此较难得到有效结构

采样.需要指出:在采样阶段获得一定数量的有效

结构是进行打分排序的前提基础.对于Other类复

合物,分子柔性往往较大,会在结合前后出现较为

显著的构象变化,刚性对接采样获得有效结构数本

身相对较少,给打分筛选增加了困难.同时,由于对

接所采样本未经优化处理,结构上存在一定不合理

性,也造成打分不够准确.所以需要在采样阶段更

为充分地考虑分子柔性变化,打分之前进行合理的

结构优化,改善Semibound/Bound对接打分的现状,这也是我们下一步要进行的工作.

相对于通常用于对FTDock采样进行排序的RP打分,该组合打分在区分有效结构的能力上表现出明显优势,如图1所示.成功率定义为一定数目保留构象中打分获得的有效结构数与全部有效结构数的比值对所有例子的平均.对于保留的前1000个结构,RP的成功率均低于0.20,而组合打分成功率接近0.45,大约增长了一倍.上述结果表明,Other类型的组合打分基本能够体现这类复合物的物理化学特征,通过能量函数的形式反映出复合物结合前后的能量变化关系,从众多对接采样中区分出有效结构.

2.2对于Target22和Target23,组合打分与

RP打分效果的比较

CAPRI第8轮包括两个目标结构(Target22和Target23),由于实验结构已经发表,结构预测评价被取消,但打分评价还正常进行.应用该组合打分和RP对CAPRI服务器提供的预测模型进行打分排序,提交10个最佳构象.表3列出了CAPRI组委会公布结果中排名前10位的模型以及它们对应在组合打分和RP打分中排序前20个结构中相应的位置.考虑两个打分排列前20个构象是因为在竞赛的筛选提交结构过程中,综合参考了两种打分这一分数段的构象的信息,从中优选得到最终提交结果.对于Target22,组合打分捕获到5个名列公布结果前10位的构象,其中4个排名到了前5位,而RP只得到2个,仅1个结构进入前5位.对于Target23,组合打分

625

Acta Phys.鄄Chim.Sin.(Wuli Huaxue Xuebao ),2006

Vol.22

筛选出4个模型,而RP 只找到1个.而且在公布排名的前10名列表中,组合打分搜索到的结构完全包括了RP 的搜索结构.由此可见,组合打分评价构象的能力明显高于RP,更为适合Other 类型.

当然该组合打分函数也存在如下缺点:1)表3显示出组合打分排序与公布结果之间存在不一致性.尤其是对于Target 23,组合打分捕获到的4个模型都被列到了15名以后.2)从前20位构象的打分数值的分布情况(图2)可以看出,该数值分布在一个狭窄的区间内,构象间能量差异不够显著,不利于构象间的区分.所以,同在采样过程中加入生物学信息具有同样重要意义[11],在打分过滤过程中合理地引入结合位点的结构信息将有助于排除假阳性的干扰,筛选出可靠的有效结构.

3结论

针对蛋白质复合物中较难预测的Other 类型,提出了适于该类型的打分函数.对17个复合物的对接结构测试结果表明,该组合打分基本能够体现这类复合物的物理化学特征,反映出复合物形成前后的能量变化关系,具备一定的从大量采集构象中筛选获得有效结构的能力.相对于RP,组合打分函数表现出更强的区分有效结构的能力.对CAPRI 第8轮的两个结构分别用组合打分与RP 进行筛选,结果显示组合打分表现出更好的筛选能力.但同时需要指出的是,Other 类型复合物是对接研究中较为困难的一类复合物,分子结合前后构象变化较大,给采样和打分都造成困难.因此,需要在采样阶段考虑分子柔性,在打分之前进行结构优化,这将是我们下一步的工作重点.

References

1Janin,J.Proteins,2002,47:257

2Janin,J.;Henrick,K.;Moult,J.;Eyck,L.T.;Sternberg,M.J.E.;Vajda,S.;Vakser,I.;Wodak,S.J.Proteins,2003,52:23Katchalski ⁃Katzir,E.;Shariv,I.;Eisenstein,M.;Friesem,A.A.;Aflalo,C.;Vakser,I.A.Proc.Natl.Acad.Sci.,1992,:21954Li,C.H.;Ma,X.H.;Chen,W.Z.;Wang,C.X.Proteins,2003,52:47

5M éndez,R.;Leplae,R.;Maria,L.D.;Wodak,S.J.Proteins,2003,52:51

6M éndez,R.;Leplae,R.;Lensink,M.F.;Wodak,S.J.Proteins,2005,60:150

7Janin,J.Proteins,2005,60:170

8Gray,J.J.;Moughon,S.;Wang,C.;Schueler ⁃Furman,O.;Kuhlman,B.;Rohl,C.A.;Baker,D.J.Mol.Biol.,2003,331:2819Jackson,R.M.;Gabb,H.A.;Sternberg,M.J.E.J.Mol.Biol.,1998,276:265

10Smith,G.R.;Sternberg,M.J.E.;Bates,P.A.J.Mol.Biol.,2005,347:1077

11Ma,X.H.;Li,C.H.;Shen,L.Z.;Gong,X.Q.;Chen,W.Z.;Wang,C.X.Proteins,2005,60:319

12Schneidman ⁃Duhovny,D.;Inbar,Y.;Nussinov,R.;Wolfson,H.J.Proteins,2005,60:224

13

Fern ández ⁃Recio,J.;Totrov,M.;Abagyan,R.Proteins,2003,52:113

14Zhang,C.;Vasmatzis,G.;Cornette,J.L.;DeLisi,C.J.Mol.Biol.,

1997,267:707

15Moont,G.;Gabb,H.A.;Sternberg,M.J.E.Proteins,1999,35:316Jackson,R.M.Protein Sci.,1999,8:60317Li,C.H.;Ma,X.H.;Chen,W.Z.;Wang,C.X.Prot.Eng.,2003,16:265

18Vajda,S.;Camacho,C.J.Trends in Biotechnology,2004,22:11019Kuhlman,B.;Baker,D.Proc.Natl.Acad.Sci.,2000,97:1038320Brooks,B.R.;Bruccoleri,R.E.;Olafson,B.D.;States,D.J.;Swaminathan,S.;Karplus,M.J.Comput .Chem.,1983,4:18721Chen,R.;Mintseris,J.;Janin,J.;Weng,Z.Proteins,2003,52:8822

Ihaka,R.;Gentelman,R.J.Comput.Graph.Stat.,1996,5:

299

图2CAPRI 8中蛋白质复合物Target 22和Target 23组合打分前20位模型的分数分布Fig.2The score distribution of top 20modes ranked by the combinatorial score for

protein complex Target 22and Target 23in CAPRI 8

626下载本文

显示全文
专题