视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
内含子在生物信息学研究和基因工程中的应用
2025-10-03 15:19:22 责编:小OO
文档
文章编号: 1000-1336(2010)01-0059-05

内含子在生物信息学研究和基因工程中的应用

陈 兵1,2  文建凡1

1

中国科学院昆明动物研究所遗传资源与进化国家重点实验室,昆明 650223;

2

中国科学院研究生院,北京 100039

摘要:内含子在真核生物基因组中广泛存在。已有的研究虽揭示出内含子对基因的表达有着重要的调节作用,并参与了基因的进化,但内含子的功能还远没有弄清楚,对其本身的起源与演化问题也还存在很大争论。尽管如此,目前内含子在生物信息学研究和基因工程中的应用已蓬勃展开。本文就人们目前对内含子的基因组分析、分子进化与分子系统分析研究以及内含子在转基因工程中的应用作一概述。关键词:内含子;基因组分析;进化分析;转基因中图分类号:Q 39

收稿日期:2009-09-07

国家基金委项目(30021004,30623007)和科技部“973”项目(2007CB815705)资助

作者简介:陈兵(1982-),男,博士生,E -m a i l :chenbing0318@126.com ;文建凡(1965-),男,博士,研究员,通讯作者,E-mail: wenjf@mail.kiz.ac.cn

自从1977年内含子被发现以来,这种独特的基因结构元件就一直倍受关注。内含子存在于已知的所有类型的生物中,包括真核生物、真细菌、古细菌和病毒。根据内含子剪接机制的不同,通常可以分为三大类: 自我剪接内含子(包括Group I 和II);tRNA 内含子和/或古细菌内含子; 以及剪接体内含子(spliceosomal intron)[1]。此外,还有人将内含肽,即蛋白质内含子(intein),归为第四类内含子。本文主要讨论的是剪接体内含子。这类内含子最为常见,它们仅存在于真核生物细胞核内由RNA 聚合酶II 转录的蛋白质编码基因中,是在mRNA 成熟过程中通过剪接体(spliceosome)作用而从mRNA 前体中除去的。

尽管内含子的相关功能以及内含子是如何进化而来的等许多问题目前还依旧未知,但经过三十多年的研究,人们对内含子序列的遗传多样性、内含子位置的分布特征以及内含子对基因表达及表达效应(表型)的影响等方面的认识已取得了显著的进

展。基于这些认识,内含子无论是在基因组学、分子进化和分子系统学研究,还是在转基因的工程技术中都已得到了重要的应用,并展现出愈来愈广阔的前景。

1. 应用于基因组分析中的内含子特征

真核生物,尤其是高等真核生物,的基因组中含有大量的剪接体内含子,使得基因的编码序列呈现出不连续性,并使转录产物可能出现复杂的选择性剪接。因而,内含子的存在对测序完成后的基因组的分析是个挑战。然而,当人们认识到了内含子本身具有一些不同于编码序列的独特特征后,却又给基因组的分析提供了方便。利用这些特征,研究者们已发展出了许多方法,用于提高基因组分析的准确性。

1.1 内含子长度的分布特征在基因组的剪接和注释中的应用

内含子序列在mRNA 成熟过程中通过剪接体而除去,不参与蛋白质的编码,因此内含子的长度,以及内含子序列本身在物种之间往往差异很大。蛋白质编码序列受到三联体密码(triplet codon)的,编码氨基酸残基的三联体密码序列长度必须为3的整数倍(3n);相反,内含子的长度则不受此,存在3n 、3n+1以及3n+2三种相位(phase)类型,且三者预期出现的频率相近。因此,在对基因注释的结果进

1.2 内含子位置的保守性在基因注释与序列比对中的应用

在缺乏详尽的转录序列信息的时候,要对具有大量内含子的基因组进行基因注释是相当困难的。内含子的位置通常较为保守。Rogozin等[3]比较了来自动物、植物、原生动物和真菌的共8个全基因组中684个同源基因的内含子位点,发现有大量的内含子在人和拟南芥中是保守的,并且约1/3的原生动物疟原虫内含子也在高等类群中出现。内含子位置的保守性在近缘物种间表现的更为突出,比如,顶复门中两种泰勒虫(The i l e ria parv a和T. annulata),大约在8200万年前分化,而二者之间99.7%的内含子位置仍保持一致[4] ;哺乳动物中,人和狗之间位置一致的内含子更是高达99.9%[5]。与已知的直系同源基因进行蛋白质序列比对时,若存在将内含子序列注释为编码序列的错误,则会导致在比对结果的相应区域出现序列插入,反之则出现序列缺失,或者二者间序列相似性陡然降低。因此,通过与已知外显子/内含子结构的近缘直系同源基因进行比较,有助于提高那些不太确定的基因注释的准确性[6]。

内含子的位置特征同样可以应用到序列比对上来。物种间进化距离越远,同源基因间的序列相似性就越低,往往产生序列插入/缺失,造成比对不齐。此时,内含子位置的保守性,为序列比对提供了很好的参照,从而提高了序列比对的可靠性。Csuros等[7]据此发展出一种方法,用于提高那些比对不齐区域的氨基酸序列的比对水平(图1)。

值得注意的是,内含子位置的保守性是相对的。即便是近缘物种之间,也可能因为内含子的进化速率相对较快而导致产生较多的内含子位置差异。比如同属的两种线虫(C a e n o r h a b d i t i s e l e gans和C.briggsae)基因组中直系同源基因的60,775个内含子中,有近11%(6579)的内含子为各自所独有[8]。此外,还有一些罕见的情形,比如果蝇Jingwei基因的一个内含子剪接位点发生改变,导致产生的新等位基因残留了部分内含子序列并编码额外的4个氨基酸残基[9],对这类特殊基因的注释和比对需要格外慎重。

2. 内含子在分子进化研究中的应用

内含子是基因的重要组成部分,尽管不参与蛋白质的编码,但内含子的有无、其所处的位置以及其序列本身所蕴含的信息等同样可以用于分子进化的研究。

2.1 内含子在估算碱基中性替换速率中的应用

在计算碱基替换速率时,常需要考虑到自然选择的影响。相对于基因编码区,大部分内含子并不含有功能元件,受到的选择压力要小得多,甚至可以自由突变,因而比编码蛋白质的氨基酸序列更适合用来估算中性突变速率[10]。显然,用于计算的

内含子序列要能很好地被比对,因而该方法只能在

图1 内含子位置保守性应用于序列比对[7]

一段氨基酸序列的多序列比对(左)与结果优化(右)。方框标记内含子在蛋白质序列上的位置。

很短的进化距离内有效;同时,选择的内含子也不能含有任何类型的功能元件,才能保证碱基的自由突变。

2.2 内含子可作为判断基因复制逆转座机制的指标

基因复制是进化过程中的常见事件,可以通过多种机制发生,包括逆转座机制。由逆转录机制实现的基因复制,是通过将成熟的mRNA逆转录成不含内含子的cDNA,然后插入到基因组来实现的。通过这种方式产生的基因拷贝中不含内含子,因而该特征可以用来作为基因复制是否采用逆转录机制的直接判定依据[11]。

2.3 内含子在基因间同源关系和基因水平转移等的判断中的应用

直系同源基因之间的内含子分布往往更为类似,因而内含子的位置特征还可以作为区分基因间直系或并系同源关系的判断依据之一。尤其是对于具有非常相似结构域的庞大的基因家族(如激酶、生长因子、免疫球蛋白家族)来说,该方法是传统的系统演化分析手段的有益补充[12]。

由于内含子的序列在进化过程中的变异程度非常高,因而,远缘物种之间的某个特定基因,如果不仅其编码区高度同源,非编码的内含子区也高度同源,则提示着该基因很可能发生过水平转移事件。这种利用内含子信息来判断基因水平转移事件,是对传统方法的很好补充[13]。

此外,在某些真核生物物种中,基因中内含子的丢失情况在一定程度上与编码序列的变异程度相关联[14]。

3. 内含子在分子系统分析中的应用

很早以前,内含子序列就被应用于研究系统演化关系。这也是目前内含子应用最为普遍的领域。由于不受或受到较小的选择压力,内含子序列发生碱基替代的速率相对较快且恒定,短时间内足以产生足够多的信息位点,尤其适合研究那些亲缘关系非常接近的物种之间的系统演化关系。内含子序列用于系统演化分析,刚好可以弥补传统的分子标记(如rDNA序列、蛋白质编码序列)位点替代缓慢的不足。王宁等[15]将分别基于内含子和外显子的系统演化分析进行了多方面的比较,发现与外显子序列相比,内含子序列有时能更好地起到“分子钟”的作用。

内含子的位置信息同样可以应用于系统演化分析。并且,内含子插入或丢失的频率显著低于蛋白质序列替换频率,比如,小鼠与人之间,蛋白质序列的改变程度约为21.5%[16],而调查了15万个内含子位置,其中仅有120个发生了改变(占0.08%)[5],二者相差三个数量级。因而,该方法尤其适合极其远缘的真核生物之间的系统演化分析。最近,利用内含子分布模式的保守性支持节肢动物与线虫进化地位更为接近的假说即“蜕皮动物”假说[17]。

但值得注意的是,内含子的演化历史相当复杂。同源内含子的长度多态性使得序列比对不齐,潜在的功能元件会造成序列异速进化,都会影响分析的结果。而内含子位置的稳定性也是相对的,现有的众多模型很大程度上都只能在理想条件下成立,如内含子丢失或获得的速率要均一,新内含子的产生不能够存在位点偏好性。相对于内含子序列的成熟应用,利用内含子位置信息的方法仍处于探索阶段,因此,在发展新方法的同时,还需要进一步完善已有的方法。

4. 内含子在转基因技术方面的应用

转基因技术是21世纪生物工程技术领域最活跃、最具实践应用价值的技术之一,已经带来了巨大的经济效益。但是,如何有效地目的基因的表达,始终制约着该技术的进一步应用。早在上世纪80年代末,人们就发现内含子能够显著提高转基因小鼠中目的基因的转录效率,随后又证实特定的内含子位置对高效表达是必需的。目前,在转基因系统中引入内含子,被认为是提高目的基因的表达效率的有效途径之一。近些年来,人们在对内含子功能的认识又取得了显著的进展,尤其是开始揭示内含子基因表达的机制[18]。在哺乳动物、线虫、昆虫、真菌和植物中,都观察到了内含子能促进基因表达的现象,说明内含子促进基因表达的作用是普遍存在的[18]。内含子还可能活跃地参与调节基因的组织特异性表达[19],而这也是转基因技术面临的难题之一。随着对内含子功能认识的逐步深入,内含子将会成为精确地目的基因表达的有力工具,在基因工程领域发挥更大的作用。

5. 内含子在其他方面的潜在应用

研究发现,内含子序列发生突变有时也会影响基因的表达效应,造成表型的显著改变。比如,胰岛素样生长因子2(insulin-like growth factor 2, IGF2)基因对肌肉生长具有重要作用,是影响猪瘦肉量的主要候选基因;该基因中内含子突变与肌肉、脂肪的沉积密切相关[20]。尽管其中的机制尚未阐明,但是毫无疑问,这类基因中内含子的多态性位点可以作为性状筛选的分子指标,有助于品种的定向改良。

人类很多遗传疾病都与碱基突变相关联,其中部分突变发生在内含子序列上。比如,p53基因内含子中的单碱基突变与多种恶性肿瘤的发生相关[21];视网膜色素变性也可能受内含子突变的影响[22]。这些发现,在对相关疾病的分子诊断上无疑具有潜在的应用价值。

此外,在实验工作中设计PCR扩增引物时,如果考虑到内含子因素,比如扩增引物分别位于不同的外显子中(扩增的片段跨越一个或多个内含子),就可以在一定程度上避免或者区分逆转录实验中基因组DNA污染的干扰。

6. 结语

基因组中的非编码序列曾经被认为是“垃圾(junk)DNA”,但今天这种概念早已过时。毫无疑问,任何遗传元件,包括内含子,都会受到自然选择的作用。越来越多的数据显示,内含子是真核生物基因组的重要组成部分,执行众多基因调节功能,并活跃地参与基因进化。

相对于编码序列和蛋白质,人们目前对内含子的认识要欠缺得多。虽然如此,人们已将内含子知识应用于研究和技术等多个方面,建立了众多的方法和模型,并在其他方面展现出重要的应用前景。但总的来说,目前对内含子的应用仍处于起步阶段,在很大程度上还只是作为辅助策略而应用的。我们有理由相信,随着对内含子研究的不断深入,有关内含子的知识的不断积累,内含子将会有更为广阔的应用前景,同时,这些应用也将反过来有助于揭示内含子本身的秘密。

参 考 文 献

[1]Rodríguez-Trelles F et al. Origins and evolution of spliceosomal

introns. Annu Rev Genet, 2006, 40: 47-76

[2]Roy SW et al. Very little intron gain in Entamoeba histolytica

genes laterally transferred from prokaryotes. Mol Biol Evol, 2006, 23: 1824-1827[3]Rogozin IB et al. Remarkable interkingdom conservation of

intron positions and massive, lineage-specific intron loss and gain in eukaryotic evolution. Curr Biol, 2003, 13: 1512-1517

[4]Roy SW et al. Large-scale intron conservation and order-of-

magnitude variation in intron loss/gain rates in apicomplexan evolution. Genome Res, 2006, 16: 1270-1275

[5]Coulombe-Huntington J et al. Characterization of intron loss

events in mammals. Genome Res, 2007, 17: 23-32

[6]Siegel N et al. Comparative genomics of ParaHox clusters of

teleost fishes: gene cluster breakup and the retention of gene sets following whole genome duplications. BMC Genomics, 2007, 8: 312

[7]Csuros M et al. In search of lost introns. Bioinformatics, 2007,

23: i87-i96

[8]Stein LD et al. The genome sequence of Caenorhabditis

briggsae: a platform for comparative genomics. PLoS Biol, 2003, 1: e45

[9]Llopart A et al. Intron presence-absence polymorphism in

Drosophila driven by positive Darwinian selection. Proc Natl Acad Sci USA, 2002, 99: 8121-8126

[10]Hoffman MM et al. Estimating the neutral rate of nucleotide

substitution using introns. Mol Biol Evol, 2007, 24: 522-531 [11]D’Errico I et al. Pseudogenes in metazoa: origin and features.

Brief Funct Genomic Proteomic, 2004, 3: 157-167

[12]Irimia M et al. Spliceosomal introns as tools for genomic and

evolutionary analysis. Nucleic Acids Res, 2008, 36: 1703-1712

[13]李志江等.基因水平转移的评判方法和转移方式研究进

展. 遗传, 2008, 30: 1108-1114

[14]Raible F et al. Vertebrate-type intron-rich genes in the marine

annelid Platynereis dumerilii. Science, 2005, 310: 1325-1326 [15]王宁等.基于内含子和外显子的系统发育分析的比较.科

学通报, 1999, 44: 2095-2102

[16]Waterston RH et al. Initial sequencing and comparative analysis

of the mouse genome. Nature, 2002, 420: 520-562

[17]Roy SW et al. Resolution of a deep animal divergence by the

pattern of intron conservation. Proc Natl Acad Sci USA, 2005, 102: 4403-4408

[18]Rose AB. Intron-mediated regulation of gene expression. Curr

Top Microbiol Immunol, 2008, 326: 277-290

[19]Stemmler MP et al. E-cadherin intron 2 contains cis-regulatory

elements essential for gene expression. Development, 2005, 132: 965-976

[20]刘桂兰等. I G F2基因PC R-R FL P多态性与脂肪沉积相关

性状的关联分析. 遗传学报, 2003, 30: 1107-1112 [21]顾其华等. p53基因内含子与肺癌. 国际呼吸杂志, 2006,

26: 474-476

[22]李娜等.基因内含子突变与视网膜色素变性的研究进展.

国际眼科杂志, 2007, 7: 147-150Application of intron in bioinformatics researches and transgenic engineering

Bing Chen, Jian-Fan Wen

1State Key Laboratory of Genetic Resources and Evolution, Kunming Institute of Zoology,

Chinese Academy of Sciences, Kunming, Yunnan 650223, China;

2Graduate School of the Chinese Academy of Sciences, Beijing 100039, China

Abstract Intron is widespread in eukaryotic genomes. It is already known that intron is an important regulation factor of eukaryotic gene expression and is involved in gene evolution. Although the functions of intron are not very clear so far, and its origin and evolution is still a debatable issue, knowledge of intron has been applied in bioinformatic analysis and genetic engineering. In this paper, the application strategies in genomic analysis, molecular evolution and phylogenetic analysis, and transgenic engineering of this important gene structural element were reviewed.

Key words intron; genomic analysis; evolutionary analysis; transgene下载本文

显示全文
专题