李娟
细胞核内的DNA转录生成各类RNA,其中mRNA(messengerRNA,信使RNA)翻译生成蛋白质,ncRNA(noncodingRNA,非编码RNA)不具备编码能力,不能被翻译成蛋白质。(图片来源:网络)
年,德国科隆的研究人员发现了某一非编码RNA实际上是能编码的信使RNA(mRNA)。这条RNA有个核苷酸,因其长度超过个核苷酸,之前被列为长非编码RNA(lncRNA)。转录该RNA的基因是earlynodulin40(ENOD40),它的两个开放阅读框(ORFs,OpenReadingFrames)能够分别编码12和24个氨基酸的微肽。豆类植物样本的研究证实了这些微肽在植物中确实存在,并且与蔗糖合成酶有互作关系。
mRNA(messengerRNA,信使RNA)翻译成蛋白质的过程简图。如今已发现某些被列为非编码RNA的序列内也含有开放阅读框,也具备编码翻译成蛋白质的功能。(图片来源:Cell)
五年后,日本的研究人员在果蝇中发现了另一个含ORF、“冒充”lncRNA的mRNA。在这项研究中,研究人员通过抑制每个lncRNAs的转录本表达来分析其在果蝇胚胎中的功能。其中只有一个表现出明显的表型,缺失这种lncRNA的果蝇胚胎缺少特定的角质层特征,这使得它们产生了如稻谷粒样的光滑外观,因而该RNA被命名为“polishedrice”(pri)。pri基因能编码四种微肽,其中三种含11个氨基酸,一种含32个氨基酸,它们对激活发育相关的某一关键转录因子至关重要。
此后,又有一些lncRNAs加入到mRNA的队伍中,它们的长度短于个核苷酸,且含有编码微肽的较短开放阅读框(shortORFs,sORFs)。数据库里已有记录的lncRNAs数目众多,其中大部分的功能都未知,有很高的机率发现其他具备微肽编码功能的RNA。搜寻这些微小宝藏的工作已经开始,但却极富有挑战性,毕竟它们之前被忽略了这么久也是有原因的。
被忽略的开放阅读框90年代末到21世纪,随着不同物种基因组测序的陆续完成及相关数据库的完善,新基因及相关mRNA的搜寻工作也随之展开。研究人员用计算机辅助的快捷方法对数百万甚至上亿的核苷酸进行分析,以便明确基因和mRNA的序列特征,例如启动子区、外显子/内含子的剪接位点、开放阅读框等。
位于起始密码子和终止密码子之间能最终编码蛋白质的基因序列即开放阅读框。(图片来源:BRYANSATALINO)
ORF可存在于几乎任何RNA序列中,但许多并不编码实际的蛋白质。由于ORF编码蛋白质的机率随其长度增加而增加,因此之前大部分搜寻ORF的算法限于个核苷酸以上,即至少翻译个氨基酸。这使研究人员能够过滤掉那些随机存在毫无意义的ORF。然而,由于这些算法排除了长度小于个核苷酸的开放阅读框,不可避免地遗漏了微肽编码序列,它们作为“算法产生的垃圾”被筛除在外而惨遭遗忘。
除了算法规则和人为疏忽,还有其他技术原因导致这种情况。比如,利用电泳分离不同大小的肽段往往意味着会丢失微肽。因为跑蛋白质凝胶电泳时,微肽很容易从凝胶底部跑出去。蛋白质质谱技术对微肽的确定也存在问题,因为质谱实验步骤中有一步是洗脱,只有较大的蛋白质被保留了下来用做后续分析。
比起序列更长的ORF,小鼠、果蝇和鱼等模式动物器官中较短的ORF在随机突变的筛选中很难被发现,意味着对它们功能的揭示也更困难。另外,许多重要蛋白质是基于不同物种间的保守性来确定的,ORF越短就越难被发现,与其他物种基因组进行比对、分析其是否保守也会越困难。
不过,随着对基因组中更多lncRNAs功能分析的进行,编码微肽的IncRNA不断地被发现。例如,年2月,哈佛大学的研究人员在斑马鱼中发现了一个lncRNA,其编码的微肽有58个氨基酸,它是斑马鱼胚胎早期发育相关的细胞移动所必需的一类信号蛋白。另一项研究在小鼠胚胎心脏和骨骼肌里发现了多个候选目标,其中有一个序列高度保守的IncRNAs,在其序列保守区既有起始密码子又有终止密码子,能编码46个氨基酸。研究者称之为myoregulin,它是参与调控肌肉紧张度的一个重要的钙泵调节器。
诸如此类多年来躲在雷达下的微肽就像金矿一样存在着,等待我们积极地去挖掘。
寻找隐藏的小肽研究者们开展了大量的RNA测序去识别sORFs,并用质谱寻找可能的肽段。但是这项技术每次只能分析少量的sORFs。直到9年,一种叫做核糖体图谱分析(ribosomeprofiling)的新方法被开发出来,结合核糖体相关RNA的深度测序技术,能够快速地在全基因组水平对不同大小的开放阅读框进行大规模分析。
这项技术是由核糖体足迹分析(ribosomefootprints)方法发展而来,该方法是明确与蛋白质翻译机器相关的RNA的最直接的方法。在核糖体足迹分析中,研究人员首先将核糖体相关RNA分离出来,用核酸酶消化掉不被核糖体保护的RNA,分离回收被核糖体保护的RNA,然后对这部分RNA短片段测序并进行后续分析。由于非编码RNA有时也会与核糖体有关联,该方法仍需要质谱技术验证所得RNA产生的蛋白质在细胞中是否存在。
用于搜寻与蛋白质翻译有关的编码RNA的核糖体足迹分析方法。(图片来源:BRYANSATALINO)
之前的核糖体足迹分析方法只能分析单个特定的转录翻译信息,无法用于检测细胞内发生的所有事件。当新一代测序技术出现之后,才得以一次性读取成百上千的“足迹”,由核糖体足迹分析技术改进成的核糖体图谱分析技术,能最大程度地获得整个转录组的翻译信息。
Ingolia等人设计的核糖体图谱分析技术的主要步骤。图片来源:WIREsRNA
年,Ingolia等人报道了小鼠胚胎干细胞基因组中,非编码区转录出的大多数lncRNAs实际上与核糖体有关联。这篇论文是一个里程碑,它证明了编码区以外也存在很多蛋白质翻译事件。
编码微肽的sORFs相关转录组的确存在。除此之外,他们还发现细胞核内某些有明确功能的lncRNAs也与核糖体有关联。例如,端粒酶RNA作为经典lncRNA,其实是端粒DNA复制的模板;参与RNA剪接的小核RNA,在核糖体图谱分析中显示出了高度的翻译特性。需要注意的是,占用核糖体(ribosomeoccupancy)的RNA并不表示就一定真正的翻译成蛋白质。
单从核糖体占用来看,并不足以区分转录本为编码RNA还是非编码RNA。(图片来源:Cell)
与核糖体关联的某些RNA可能仅仅参与翻译调控,与核糖体也可能只是随机互作,这种互作关系甚至会产生微小的非功能肽,或因其不稳定而被迅速降解。为了辨别核糖体图谱分析得到的真正翻译事件,核糖体释放分数(ribosomereleasescore)作为度量标准被提出来,该标准基于核糖体结合的RNA片段在全长mRNA分子上的分布状态。当核糖体沿着ORF翻译至终止密码子时,核糖体与转录本的关系也随之终止,它们会从mRNA上释放下来。翻译成蛋白质的RNA编码区相比下游非翻译区,应显示出更大比例的核糖体足迹片段,意味着终止密码子之后的RNA片段与核糖体的关联在核糖体图谱中会有显著下降,而对于经典的非编码RNA则不是这样。
核糖体释放分数简图。(图片来源:Guttmanlab)
核糖体释放分数评估了与核糖体结合的RNA片段沿整个RNA分子的分布情况。真正编码的RNA的ORF应该比终止密码子后的序列有更大比例的核糖体关联区域。(图片来源:BRYANSATALINO)
使用了该标准的一项研究发现,绝大多数基因间的lncRNAs确实是不编码的,但有5%左右的lncRNAs的核糖体释放分数与编码蛋白的转录本类似。对于数以万计的lncRNAs来说,5%是一个庞大的数字,暗示着可能会有数量庞大的微肽存在。
为了证实sORF的翻译事件并明确其产生的微肽,基于核糖体足迹图谱、序列保守性、同义突变频率及其他特征的研究,研究者们研发出了新的度量标准和算法(比如:FragmentLengthOrganizationSimilarityScore(FLOSS),PhylogeneticConservationScoreofasORF(PhyloCSF))。年11月研究者们建立了名为sORFs.org的sORF数据库,用于积累和搜集有关sORFs及其翻译能力的数据。
现在,数据库里有小鼠、果蝇和人类核糖体图谱分析研究所确定的全部sORFs,目前存有高达个sORFs,但各类筛选指标能将这个庞大的列表进一步缩小。经过严格筛选,来自人类的数据列表已降至约个强候选sORFs。同时,研究者们系统地开展了蛋白质质谱实验,用以明确算法得到的微肽是否真的在细胞中存在。
一旦确定了某个新的微肽,就要用分子生物学实验探索其功能。这个过程进展较慢。不过研究者们已经明确了几个新的微肽的功能。年1月,研究者报道了一个lncRNA编码的被称作dwarfopenreadingframe(DWORF)的微肽,它是含有34个氨基酸的肌肉特异性微肽,在小鼠心脏中大量表达,能够调节肌肉收缩,但在缺血人体心脏组织中的表达被抑制,提示可能与心脏衰竭有关。另一项新发现是一类感染人类巨细胞的病毒lncRNA编码的微肽,它能在以前感染过的患者中引起T细胞免疫应答,提示这类微肽很可能具有免疫原性,也说明了微肽在某些疾病发生过程中的重要性。
随着研究人员对基因组小片段进行更仔细地梳理,更多微肽的生物学功能将会被发现。如你所见,它们可能因短小的序列而被忽视,其sORFs也可能被埋在统计学噪声里,而翻译微肽的RNA也可能被错误归类,但这都并不妨碍它们扮演重要角色,行使着举足轻重的基本生物学功能。
参考文献1.RuthWilliams,NoncodingRNAsNotSoNoncoding.中科白癜风医院寒假送健康北京看白癜风哪家比较好