1、PDF外文:http:/ 基因组计划在决定基因功能中的角色:来自模式生物的洞察 前言 大量数据表明,从 DNA 序列到线上脑图谱,都在公共数据库中迅速被累积,并且人们对利用增长的强大的计算机分析完整的数据 来 满足我们从 DNA序列到生物学功能的研究具有很高的期望值。 要到什么程度才能够实现呢?我们通过思考下列这些来检验这个问题:不同进化世系里的基因数目;从果蝇、秀丽隐杆线虫、斑马鱼、小家鼠、拟南芥、和酿酒酵母基因突变和基因敲除获得的数据;在不同系统中基因调控动力学 ; 能准确控制基因错误表达的基因转录方法的实效性;在不同世系生物体中被保存的各种各 样的进程
2、。 我们的分析说明在数据库本身不能够决定生物功能,但会为设计合适的试验提供重要的基础。转基因 技 术和遗传学方法的应用 和总基因组序列及基因表达平台数据库信息、在发展中的形态学变化、突变表型相一致 能够加强我们解开控制基因表达和变异的多层网络的能力。这些只是能够在模式生物中迅速获得,允许大部分人类基因组编码的大约 70000 个 独立基因减少为小数目的多部件,这是知道生物化学功能的过程。 细菌和单细胞真核生物的基因数目从大约 500 到 8000 之间变化 细菌基因组计划对自由活动的原核生物产生的蛋白质和 RNA 分子的数目提供了很准确的估计。他们的基因
3、密度是 1.1kb 大约 1 个基因,说明基因数目从生殖支原体菌已知的 473 基因变化到黄色粘球菌估算的 8000。 来自啤酒酵母菌基因组计划的估算证实在这个真菌基因组中大概有 5800的蛋白编码基因。在极小的独立生存的红藻,如果这个单细胞藻类的基因密度和酵母相似,我们估算大约有 5000 基因。在原生生物尖毛虫,大约有 12000个基因。 具有非常不同的组织复杂性的真核生物例如原生动物、线虫、 果蝇具有相似的基因数目,大约 12000 到 14000 之间。 在果蝇中,现在估计基因数目范围 在 8000 到 20000 之间。我们检查现有的数据,总结
4、出果蝇中基因数目将近 12000,数据接近尖毛虫和线虫。 果蝇单倍体基因组由两部分组成,一个异染色体基因 -缺乏 50Mb 和一个常染色体基因 -富含 115Mb。 50Mb 的区域不超过 25 个必需轨迹,组成大量卫星 DNA 序列,核糖体基因和转座因子。我们通过三种方式估算 115Mb 组分的编码能力。首先我们通过分析文库里的 cDNAs 来确定转录单元的长度,这个库利用了 cDNAs 可以和基因组 DNA 对齐的 278 处。这些转录单位来自基因组的几乎每个分区,并且在染色体活动中通过转录组 插入和分子序列相似点在化学和电离辐射诱变屏和在设计用于分离行为突变体和脑
5、部解剖突变体的诱变屏中分离获得。共用外显子产生一个或者更多的蛋白质的转录基因组序列折叠为一个转录单位,并且它的长度在相关基因组序列的基础上进行测量,是从 RNA起始位点到聚腺苷酸化位点。多重转录是由于自身起始位点出聚腺苷酸化位点的改变或者是单位点的选择性 RNA 剪接产生的,不是多基因而是单转录单位的变体。 当按一一排列时, 278 个用于分析的转录单位占有 2.4Mb 的基因组 DNA。如果这个比率普遍应用 ,115 Mb 常染色体基因组可以容纳 13200 个转录单元。这是一个过大的估算 ,因为 115 Mb 的部分包含至少 15 Mb 的可移动元件 ,因为我们已经不允许转录单
6、元之间存在任何的调节 DNA 序列且不包括超过 100 kb的转录单元。我们的第二个设想是利用了只有两转录单元的最小量的那些例子,它们可应用在基因组 DNA 的任何相邻段 ,因此包括转录单元之间的 DNA。在 1.7MbDNA 嵌入的 158 转录单位的范围,每个基因组大约是 11000。我们的第三个猜想是对多聚核糖体 mRNA 杂交数据的重新评估,它最初是基于 mRNA平均大小 1250nt。从现在的分子数据可以估算出 mRNA 的适当长度是 2100nt,进一步获得了 10000转录单元的估算。基于克隆材料从 11000变化到大概 13000转录单位的两个最可靠的估算,我们将 12000
7、当成果蝇蛋白质编码基因的数目的工作数据。 其他生物的比较显示 ,单细胞原生动物、线虫的蠕虫、果蝇发育和功能用 到了 12000 到 14000 个基因 (表 1)。这三个例说明,在形态学复杂性上具有较大差异的不同生物体,具有相似的基因数目。基因数目本身不太可能为生物体的复杂性提供有用的策略。在被遗传单位占有的 DNA 的平均数目不断增加,在细菌中是 1Kb,酵母中 2Kb,果蝇中 10Kb,很可能反应了后生生物体中对顺式作用元件的增长性需求。 在所有的后生动物中核心生化途径及机制的数目相似 多聚核糖体 mRNA数据证实鱿鱼至少有 35000个基因( Ca
8、pano et al.,1986),且我们根据克隆 mRNA 长度从四倍体烟草的重新评估数据显示这个植物大约有 43000 个基因。因此,假设鱿鱼和烟草估算是基于在单一方法上是独立、精确的,包括脊椎动物在内,当前多细胞真核生物的基因数目的变化从大约 12000到 43000。人类和老鼠基因组被认为有大约 70000 个基因。虽然到 1995 年,10 月,公共 数据库中可应用的人类表达序列标签( ESTs)超过 270000 ,但是还不清楚有多少基因通过这种方法被鉴别。 就目前掌握的信息来看 ,人类基因组可能少于 50000 或多于 100,000 基因。这种不确定性不大可能得到解决 ,直到大
9、量基因组样本被测序 , 使 EST 数据库部分基因代表被测定。 为什么是哺乳动物基因可能是线虫和果蝇的四 到六倍 ?一种可能性是 ,哺乳动物的重要组成部分随着多倍体化的发生而增多 ,多倍体化是在大部分单细胞和后生世系中的一个普通的进化特点。在哺乳动物中复制途径 ,然而 ,可能采用特殊的表达模式和生物功能。 如果基因 组计划验证人类与老鼠的基因组八倍体的本质的基础 ,然后基本脊椎动物基因数目可能和的果蝇和蠕虫相似 ,大约12000 到 14000 个基因。有趣的是 , 尾索动物的基因组大小和重复 DNA 含量与果蝇相似。 (约翰 andMiklos,1988)。如果这是一个基本的脊索动物基因组的标志 ,那么苍蝇 ,线虫的蠕虫 ,早期脊索动物和人类的核心生化途径和机理的数量也不太可能大大不同哺乳动物的基因组的进化被认为包括一个古老的基因组至少的两次全基因组复制 , (荷兰等问题 ,1994),同时许多大基因家族发生亚染色体片段复制和大量基因复制 (Lundin,1993)。 在基因组水平复制有多广泛? 流感嗜血杆菌的分析表明 ,30%的 1760 个基