
导读
真核生物基因组的复杂性远超传统基因注释的范畴,越来越多的证据表明基因组中存在广泛的非经典翻译现象。Ribo-seq核糖体印迹分析、长读长转录组学以及蛋白质组学等前沿技术的进步,揭示了在传统编码区之外存在大量翻译活动。
这些翻译产物出现在5' UTR、3' UTR、重叠阅读框及被归类为非编码的转录本中,挑战了经典的“一个基因对应一个蛋白”的中心法则。然而,翻译的存在并不等同于功能性蛋白的产生,如何区分具有生物学功能的稳定蛋白与非生产性的翻译噪声成为领域内的核心挑战。
目前,学术界亟需建立一套严谨的细胞生物学框架,以系统性地识别并验证这些由未注释ORF编码的蛋白质。明确这些产物的生物学意义,对于理解基因表达的调控机制、细胞稳态以及疾病发生过程中的分子基础具有重要意义。
近日,法国里尔大学的Isabelle Fournier和Michel Salzet在Trends Open上发表了题为“Previously unannotated ORFs encode functional proteins involved in cell biology”的综述文章。该文强调,通过整合转录本感知的ORF定位、翻译证据、蛋白质水平检测以及遗传学验证等多种方法,可以系统性地鉴别并研究这些由非注释ORF编码的功能性蛋白质。

综述整理
一、从翻译ORF到功能蛋白的鉴别:多维度证据的整合
在深入理解未注释ORF编码的蛋白质的功能之前,关键在于建立一套严谨的证据链,而非单一的强制性清单。强大的功能归属通常需要以下四个层次的支持:
1.1) 精确的转录本感知ORF定位
定义编码潜力: 明确哪个RNA异构体能够编码候选ORF至关重要,特别是对于位于内部和下游的ORF。这需要依赖长读长转录组数据和帽式定义的转录本图谱来排除可变剪接或转录本起始位点转换等解释。
区分内部ORF与可变异构体: 一个重要的未决问题是,所谓的内部ORF是否真正从同一转录本翻译而来,还是它是某个可变转录本(alternative transcript)的主要CDS。通过更精确的转录本注释,许多看似内部的ORF实际上是由于可变剪录或可变转录起始位点(TSS)产生的新异构体。
1.2) 可靠的翻译证据
Ribo-seq核糖体印迹分析: 能够以核苷酸水平的精度定义翻译中的ORF,其三碱基周期性和起始峰是关键指征。
1.3) 直接的蛋白质证据
常规蛋白质组学: 能够支持细胞中存在稳定蛋白质,但许多未注释ORF产物因其小尺寸、低丰度、疏水性或非胰酶消化肽段的存在而难以检测。
免疫肽组学(Immunopeptidomics): 可提供翻译和抗原呈递的有力证据,但不能独立证明全长蛋白质在细胞中的稳定累积。
1.4) 严格的选择性遗传学验证
因果归属: 这是功能归属的决定性步骤。目标是选择性地扰动某个基因座,使其在抑制一个蛋白质产物的同时,尽量不影响转录本结构和该基因座的其他产物。
RNA中性且框内突变: 突变设计应尽量不影响RNA的加工(如剪接)和稳定性,并严格考虑翻译阅读框,避免引入新的隐性起始位点、改变剪接信号或影响下游CDS的翻译。肽段缺失型等位基因应与仅肽段救援实验相结合,并仔细监测RNA丰度及异构体结构,明确区分RNA层面的调控和蛋白质功能。

二、转录本结构与翻译逻辑:决定可变蛋白的来源
理解可变蛋白的来源,需要将转录本结构(transcript architecture)和翻译逻辑(translation logic)清晰地分开考虑。
转录本结构: 决定了特定RNA分子上存在哪些起始密码子和ORF。
翻译逻辑: 决定了扫描中的核糖体如何选择这些可能性。
2.1) 上游ORF (uORF)
双重功能: 许多uORF主要作为翻译调控元件,通过影响下游主CDS的翻译来发挥作用,但也有一些uORF编码的肽段本身具有直接的功能。
2.2) 重叠ORF与内部ORF
真实重叠与可变转录本的区分: 一个关键的混淆是,内部ORF是否真正与主CDS在同一RNA上重叠翻译,还是它实际上是另一个可变转录本的主要CDS。长读长转录组数据和帽式定义的转录本图谱对于区分这两种情况至关重要。
2.3) 其他翻译机制
近认知密码子起始: 核糖体可能在非AUG密码子处启动翻译,产生N端延伸的蛋白异构体,如PTENα和PTENβ,它们具有不同的定位和功能。
终止密码子通读和程序性移码: 这些机制在特定RNA结构或序列基序的调控下,进一步扩展了蛋白质产物的多样性。
三、细胞生物学中的常见机制
尽管已验证的未注释ORF编码蛋白质的机制尚有限,但一个模式正在显现:它们通常作为大型分子机器的紧凑调节器,而非独立的催化中心。
它们常常在膜相关和细胞器相关复合物中,通过改变组装、定位、底物可及性或信号阈值来发挥作用。
3.1) 营养与生长信号
SPAR/SPAAR: 由LINC00961编码,定位于溶酶体,通过抑制v-ATPase–Ragulator复合物来限制氨基酸依赖的mTORC1激活,调控肌肉再生。
Alt-RPL36: 由RPL36基因座的重叠ORF产生,通过TMEM24和磷脂酰肌醇信号通路调控PI3K-AKT-mTOR通路。
3.2) 线粒体生物学
AltMiD51: 由MIEF1基因座的可变ORF翻译而来,促进线粒体裂变,与已注释的MiD51蛋白功能不同。
BRAWNIN: 一个小型装配因子,调控呼吸链复合体III的组装和氧化磷酸化。
3.3) 肌肉钙处理
DWORF: 显著增强SERCA钙泵的活性,通过取代抑制性微肽来调节钙的重摄取和收缩性。
3.4) 凝聚体与RNA降解
NBDY: 与mRNA去帽复合物相关,并以磷酸化敏感的方式影响P-小体动力学。
这些案例表明,未注释ORF编码的蛋白质常以短螺旋、膜锚定结构和紧凑的无序相互作用基序的形式存在,它们的作用是调节更大细胞结构的组装或定位,而非执行酶催化功能。

四、进化、注释与疾病背景
未注释ORF编码的蛋白质的发现,对基因组注释、进化和疾病研究具有深远影响。
进化创新: 短ORF相对于长多结构域蛋白质更容易获得、丢失和重排,这使其成为快速调控创新的潜在基质。
注释差距: 现有的基因注释系统主要针对保守的长CDS进行优化,导致许多短的或谱系特异性的蛋白质产物在翻译敏感性或蛋白质组学分析之后才被发现。
疾病相关性: 大规模CRISPR研究表明,许多未注释ORF编码的蛋白质对细胞生长或存活至关重要,包括在癌症背景下。免疫肽组学也揭示了CDS之外的翻译对MHC I类分子呈递的抗原图谱有显著贡献,使其与肿瘤免疫学和治疗发现相关。
总结与展望
对于细胞生物学而言,当务之急是认识到更多的基因座可能是多产物单元,在分析表型时需明确关注转录本结构、ORF上下文和翻译机制。未来的研究不应仅依赖单一技术,而应整合转录本感知的ORF定位、翻译证据、受控的蛋白质检测和区分RNA层面调控与蛋白质功能的遗传学实验。
| 新使生物专业翻译组一站式服务平台 |
| 产品名称 |
点击图片查看
点击图片查看

关于我们
产品中心
技术服务
技术中心
联系我们
