刘玉瑛1,张江丽2(1.首都师范大学生命科学学院,北京100037;2.廊坊师范学院生命科学学院,河北廊坊065000)
摘要启动子是基因表达的重要元件,深入研究启动子的结构和功能,是理解基因转录机制和表达模式的关键。随着生物技术和计算机技术的高速发展,应用生物信息学技术对启动子进行预测和分析的方法得到了很大发展。对目前常用的真核生物启动子预测相关数据库和软件资源作了简单介绍。
关键词真核生物;启动子;数据库;预测
中图分类号Q24文献标识码A文章编号0517-6611(2007)24-07418-02
The Databases o f Eukaryo tic Promoters and Related So ftw are Resources
LIU Yu2ying et al(Co lleg e of Life Science,Capital N ormal U niv ersity,B eijin g100037)
Abstract Eu kary o tic pro mo ters are i mp ortan t elemen ts in reg ulatio n o f the e xpres si on.T o stud y the structu re and functio n o f a p ro m oter deeply,i t is the key to kno w ho w the gene reg ulates its transcri pti on an d starts its exp ression.With the fast d evelo pmen t o f bio log ical and co m puter techno lo gy,sig nifican t ac hiev ements h av e been made in co mp utatio nal predictio n o n Eu kary o tic pro mo ters.In thi s paper mai nly in tro duces the pro g ress made in the datab ases o f predictin g E ukaryo tic p ro mo ters as w ell as the related so ftw are reso urces w as in tro duced.
Key w ords Wikipedia;Pro m oter;D atab ase;Predicti on
作为基因表达所必需的重要序列信号和基因转录水平上一种重要的元件,真核生物的启动子一直是现代分子生物学的研究热点。用实验的方法分析和鉴定启动子是多年以来进行启动子研究的主要途径。近年来,随着人类基因组测序的完成和根据实验获得的对启动子的序列特征与结构功能的认识,利用生物信息学的方法,通过计算机模拟和计算来预测基因启动子的相关信息获得越来越多的应用。笔者对目前常用的几个启动子预测数据库和相关软件资源作一简单介绍。
1真核生物启动子的基本结构
真核生物的启动子有3种类型,分别由R NA聚合酶Ñ、Ò和Ó进行转录。典型的真核生物启动子由核心启动子、上游元件和应答元件构成。
核心启动子包括起始子和基本启动子。其中起始子是DN A解链并起始转录的位点。基本启动子序列为中心在-25~-30的7bp保守区,其碱基频率为:T85A97T93A85A2 63A83A50,通常被称为T A T A框或Goldberg2Ho gne ss框,具有选择正确的起始位点,保证精确起始的功能。同时,T A T A框还能影响转录速率。如兔的珠蛋白基因中T A T A框的保守序列A T AAA A人工突变为A TG T AA时,转录效率会下降80%。
上游元件主要包括C AA T框和GC框两种,均具有增强转录活性的功能。其中,C AA T框的保守序列是GGC T2 C A A TC T,一般位于上游-75紧靠-80,与其相互作用的因子有C TF家族的成员C P1、C P2和核因子NF21等;GC框的保守序列是G TGGGC G GG GC AA T,常以多拷贝形式存在-90处,识别该序列的转录激活因子为Sp1。两种上游元件同时存在或者只存在其中之一,但并非所有真核基因的启动子都存在上游启动子元件,有些植物细胞中几乎不存在C AA T框。
应答元件通常位于基因上游,能被转录因子识别和结合,从而基因的专一性表达。如热激应答元件、激素应答元件、c A M P应答元件、金属应答元件、糖皮质激素应答元
作者简介刘玉瑛(1982-),女,北京人,硕士研究生,研究方向:生物化学与分子生物学。
收稿日期2007204223件和血清应答元件等。应答元件含有短重复序列,不同基因中应答元件的拷贝数相近。
2真核生物启动子预测相关数据库资源
2.1EPD(Eukaryotic promote r database)[1]EP D数据库(http://w w w.e pd.isb2sib.ch/或者f tp://f tp.e pd.isb2sib.c h/ pub/da taba se s/epd)是一个针对真核R NA聚合酶II型启动子的非冗余数据库。现有启动子序列数据1500多个,按层次组织。关于启动子的描述信息直接摘自科学文献。该数据库中所有的启动子均经过一系列实验证实,如:是否为真核R NA聚合酶Ò型启动子、是否在高等真核生物中有生物学活性、是否与数据库中的其他启动子有同源性等。同时,EPD 与其他的相关数据库如EM B L、S WI S S2P RO T、TRA NS FAC等,实现了数据的交叉链接。在其最新版本(第76版)中,EPD 将收集的启动子分为6大类:植物启动子、线虫启动子、拟南芥启动子、软体动物启动子、棘皮类动物启动子和脊椎动物启动子,共2997个条目,其中人类启动子有1871个,约占总数的62%。EPD数据库是目前唯一一个源自实验数据的真核生物启动子数据库,是常用的预测软件测评的手段之一。
2.2PLAC E(Plant cis2ac ting regulatory DNA elements)[2]
P LAC E数据库(http://w ww.dna.af frc.go.jp/htdoc s/PL AC E/, F TP服务器为ftp://ftp.dna.a ff rc.go.jp/)是从已发表文献中搜集植物顺式作用元件资料而建立的模体数据库(mo tif data base),始于1991年。目前服务器位于日本农林渔业部。P LAC E数据库中只囊括维管植物的信息,其他与植物顺式作用元件同源的非植物模体也同时被收录。并且所收录信息根据实验最新进展随时得到更新。同时,PL AC E数据库中还包括了对每个模体的描述和在PubM ed中的相关文献编号,以及在DDB J/E MB L/GenB ank的核酸序列数据库的登录号,点击后可阅读相关文献摘要等信息。登陆PL AC E数据库界面,用户可通过关键词、S RS关键词或者同源序列查询顺式作用元件的信息。关键词可以是模体名称、涉及的诱导子或者植物激素、胁迫类型、该基因表达的组织或者器官、原始文献的作者、模体序列、植物种属等。查询结果显示位点(模体)名称、位置、序列和PL ACE登录号,同时,也可以用F AS T A 格式批量上传序列信息。
安徽农业科学,J ou rnal o f Anh ui Ag ri.Sci.2007,35(24):7418-7419责任编辑孙红忠责任校对李洪2.3TRRD(T ranscription regulatory regions database)[3] TRR D数据库(http://w w w.bione t.nsc.ru/trrd/),即转录区数据库。其数据来源于已发表的科学论文,包含特定基因各种结构与功能特性,包括转录因子结合位点、启动子、增强子、沉默子的位置以及基因表达模式等。2001年的6.0版本综合了38篇科学文献中的1167个基因,5537个转录因子结合位点,1714个区域,14个座位控制区和5335个表达模式。在TR RD数据库中,所有信息被分列于5个相关的数据表中:TR RD GENES(包含所有TR RD库基因的基本信息和单元信息);TRRD SI TES(包括因子结合位点的具体信息);TRR DF AC TOR S(包括TRRD中与各个位点结合的因子的具体信息);TRR DEXP(包括对基因表达模式的具体描述);TR RDB IB(包括所有注释涉及的参考文献)。TR2 RD的主页提供了对这几个数据表的检索服务。除此之外,数据库还提供了另外2个工具:¹序列获得系统(S RS),用于搜索TRR D和与外部信息和软件资源进行整合;ºTRR D Vie w er,以基因图谱的形式提供相关信息的描述。
2.4TRANS FAC(T ranscriptional re gulation,from patte rns to profiles)[4]TR ANS F AC数据库(http://w ww.ge ne2regulation.
c o m/或者http://transfac.gbf.de/TRA NS FAC/)是一个真核基因顺式元件和反式作用因子数据库,数据搜集的对象从酵母到人类。TRA NS FAC数据库中的数据资源被分为6大类别:S I TE类数据是关于真核基因的不同位点信息,GENE 类数据描述具有多个位点的基因信息,FAC TOR类数据描述结合于这些位点的蛋白质因子信息,C EL L类数据则说明蛋白质因子的细胞来源,C LAS S类数据包含转录因子分类的基本信息,M A TR IX数据以矩阵的形式定量描述结合位点核苷酸的统计分布。此外,还有几个与TRA NS FAC密切相关的扩展库:P A THODB库收集了转录区域中可能导致病态的突变数据;S/M AR T DB收集了蛋白质结合位点的特征信息及作用于这些位点的蛋白质信息;TR ANS P A T H库用于描述与转录因子相关的信号传递的网络;C YTO M ER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。
3前景与展望
对真核生物启动子进行计算机预测和鉴定是一项具有挑战性的研究工作。到目前为止,尽管相关数据库和软件资源得到了很大的丰富和发展,但仍存在着明显不足,如:¹大多数数据库对于数据的创新、精确性和准确性没有权威评价,数据过多、重复,分类较粗等;º人类公共数据库中,只有极少数被实验证实的顺式作用元件,绝大多数基因的启动子仍然未知;»采用人类基因组信息来预测植物、真菌等远缘物种的基因结构时,数据准确性不高,但目前针对植物、真菌等的生物信息学数据库远没有人类的全面和完善;¼数据库中c D NA和ES T簇经常是不完整序列,特别是5c端,故无法确定转录起始位点的确切位置,从而影响启动子的预测;½真核生物的顺式作用元件比原核生物复杂,需要考虑多种因素[5]。因此高效的实验方法和设计良好的预测软件仍是生物学家面临的严峻课题。
随着分子生物学、遗传学和生物信息学的高速发展,更多的真核生物启动子序列将得到分析,各顺式作用元件的功能也会逐渐明确,启动子的计算机预测研究工作也将有更广阔的发展空间。
参考文献
[1]C HRIS TO PH D,VIVIA NE P.Th e Eu ka ry o tic p ro m o ter d atab ase EPD:the im p act
o f in silic o p ri me r e x te nsi o n[J].Nu cleic Acid s Re searc h,2004,32:82-85. [2]KEN IC HI H,YO S HI HIR O U.Pl ant cis2actin g reg u lato ry D N A e lem en ts
(P LAC E)d atab ase:1999[J].Nu cleic Acid s R esearch,1999,27(1):297-300.
[3]KO LC HA NO V N A,LGN A TIEV A E V.T ran scrip tio n reg u lato ry reg io n s d atab ase
(TR RD):its statu s i n2002[J].Nu cleic Acid s Re searc h,2002,30(1):312-317.
[4]M A TY S V,F RIC KE E.TR AN SF AC:tran scrip ti o nal reg u latio n,fro m p attern s to
pro files[J].N ucleic Acid s Research,2003,31(1):374-378.
[5]TO M PA M,LIN,B AIL EY T L,et al.Asse ssin g co m p uta ti o nal to ol s fo r the d is2
co v ery o f t ran scrip tio n facto r bi nd in g si te s[J].Natu re B i o tec h,2006,23:137-144.
(上接第7417页)
每一条扩增带对应着基因组D NA分子上的一个位点。银染AF LP用4对引物在28个材料扩增出191条不同分子量的D NA带,这就意味着这4对引物对28个材料的基因组进行191个位点的检测。出现多态性扩增带,说明某个或某些材料在该位点上存在变异。银染AF LP4对引物共发现多态性位点1个,占98.9%,说明在检测的位点中有98.9%的位点材料之间存在变异。这种检测的精度和效率是以往任何一种指纹技术所不能比拟的,因此认为,AF LP 技术是目前检测效率最高的一种。
研究卡瓦胡椒、胡椒及其近缘野生种的分子标记表明,卡瓦胡椒确为胡椒属植物,这与Ja ra millo等建议把胡椒属植物分为3个大的进化枝(clades):即亚洲进化枝、南太平洋进化枝和新热带区进化枝,卡瓦胡椒分在南太平洋进化枝中的结果相一致[10]。卡瓦胡椒虽为胡椒属植物,但与胡椒及其近缘野生种之间亲缘关系较远,有一定距离。卡1和卡2、卡3和卡4、卡5和卡6相似系数均为1,无法区分,可能是分别来自同一株卡瓦胡椒材料的缘故。
参考文献
[1]杨友才,周清明,尹晗琪,等.烟草种质资源遗传多样性及亲缘关系的
AF LP分析[J].中国农业科学,2006,39(11):2194-2199.
[2]杜金友,靳占忠,徐兴友,等.A FLP标记在玉米种质资源鉴定中的应用
[J].西北植物学报,2006,26(5):927-932.
[3]高建明,张守攻,齐力旺,等.杨树重要品种(无性系)的AF LP指纹分析
[J].云南植物研究,2006,28(1):85-90.
[4]黄建安,李家贤,黄意欢,等.茶树品种资源遗传多样性的AF LP研究
[J].园艺学报,2006,33(2):317-322.
[5]杨东,余来宁.R APD和A FL P在分析尼罗罗非鱼遗传多样性研究中的
应用比较[J].江西农业学报,2006,18(2):1-4.
[6]施江.卡瓦胡椒引种繁殖和分子标记的研究[D].儋州:华南热带农业
大学热带作物生物技术国家重点实验室,2004.
[7]施江,辛莉,郑楷,等.卡瓦胡椒及胡椒的R A PD聚类分析[J].生物技
术,2005,15(6):34-37.
[8]李明芳.荔枝S S R标记的研究及其对部分荔枝种质的遗传多样性分析
[D].儋州:华南热带农业大学热带作物生物技术国家重点实验室,
2003.
[9]N EI M,LI W H.M a the ma ti cal m o del fo r stud y in g gen etic v ari atio n in term s o f re2
s tric ti o n e nd o nu clease s[J].Pro c Natl Acad Sci US A,1979,76:5269-5273. [10]JA RA M IL LO M A,M A NOS PS.P hy lo g en y an d p attern s o f flo ral di v ersity i n t he
gen u s Pip er(Pi peraceae)[J].A m J B o t,2001,88(4):706-716.
7419
35卷24期刘玉瑛等真核生物启动子预测相关数据库资源概述下载本文