首页 > 医疗资讯/ 正文
蛋白质功能预测是现代生物学和生物信息学的关键挑战之一,因为它使人们能够更好地了解蛋白质在生命系统中的作用和相互作用。蛋白质的准确功能描述对于识别药物靶点、了解疾病机制和改善工业中的生物技术应用等任务是必要的。虽然近年来预测蛋白质结构变得越来越准确,但由于已知功能数量少,加上其复杂性和相互作用,预测蛋白质功能仍然具有挑战性。

蛋白质的功能使用基因本体(GO)来描述,这是生物学中最成功的本体之一。GO包括三个亚本体,用于描述单个蛋白质的分子功能(MFO)、蛋白质可以贡献的生物过程(BPO)和蛋白质活跃的细胞成分(CCO)。研究人员根据实验确定蛋白质功能,并生成科学报告,然后由数据库管理员获取并添加到知识库中。这些注释通常传播到同族蛋白。因此,UniProtKB/Swiss-Prot数据库3包含为数千种生物体和超过55万种蛋白质手动策划的GO注释。
最近的蛋白质功能预测方法依赖于不同的信息来源,如序列、相互作用、蛋白质三级结构、文献、共表达、系统发育分析或GO中提供的信息。这些方法可以使用序列域注释,直接应用深度卷积神经网络(CNN)或语言模型,如长期短期记忆神经网络和变压器,或使用预训练的蛋白质语言模型来表示氨基酸序列。模型还可能通过知识图嵌入、使用k个最近邻和图卷积神经网络的方法纳入蛋白质-蛋白质相互作用。此外,应用于科学文献的自然语言模型在自动函数预测方面也取得了成功。
许多函数预测方法的主要局限性之一是它们依赖于序列相似性来预测函数。虽然这种方法在应用于具有良好特征功能的类似蛋白质的蛋白质时是有效的,但对于与已知功能结构域几乎没有或没有序列相似性的蛋白质来说,这种方法可能不太可靠。分子功能主要来自结构,结构相似的蛋白质可能具有不同的序列。重要的是,具有类似序列的蛋白质可以具有不同的功能集,这取决于它们的活性位点和它们所处的生物体。
因此,对GO的所有三个亚本体使用相同信息来源的方法是有限的;而MFO亚本体的功能可以通过蛋白质序列或结构来预测,而来自BPO的功能,以及在较小程度上的CCO,本质上依赖于多种蛋白质的存在并以特定方式相互作用;因此,预测BPO和CCO注释需要与预测MFO注释不同的信息来源。
一般来说,预测蛋白质是否参与生物过程需要了解生物体蛋白质组,或至少了解其注释的基因组,以便预测蛋白质;因此,两种蛋白质可能具有100%的序列身份,但参与不同的过程,这取决于生物体蛋白质组中是否存在其他蛋白质。蛋白质-蛋白质相互作用网络可以编码蛋白质组,并限制蛋白质之间产生生物过程的潜在相互作用的搜索空间。
本体是另一个很少用于预测蛋白质功能的信息来源。本体论不仅仅是类的集合;相反,本体是形式理论,使用基于逻辑的语言指定类预期意义的某些方面。GO公理中包含的背景知识可以被一些机器学习模型用于通过知识增强的机器学习来改善预测。通过将形式公理纳入机器学习模型,可以在学习或预测过程中利用先前的知识,对参数搜索空间施加限制,从而提高学习过程的准确性和效率,并最终做出更好的预测。
虽然如何将形式背景知识纳入机器学习方法有不同的方法,但近似蕴涵旨在明确且可证明地执行“语义蕴涵”作为优化目标,从而再现演绎系统的许多形式属性。只有少数函数预测方法利用GO中的形式公理。用于预测蛋白质函数的分层分类方法,如GoStruct2,DeepGO、DeePred、SPROF-GO和TALE使用减量公理来提取类之间的层次关系,但忽略了GO中可用于减少搜索空间和改进预测的其他公理。
2024年2月14日发表在Nature Machine Intelligence的文章,开发了DeepGO-SE,这是一种蛋白质功能预测方法,它使用预先训练的大型蛋白质语言模型结合神经符号模型从蛋白质序列中预测功能,该模型作为近似语义蕴涵执行功能预测。我们使用ESM2蛋白语言模型来生成单个蛋白质的表示。与DeepGOZero类似,我们将ESM2嵌入投影到由GO中的公理生成的嵌入空间(ELEmbedings)中。
ELEmbeddings基于几何形状和几何关系编码本体公理,并对应于Σ代数或“世界模型”,我们可以确定语句是真还是假。与DeepGOZero相反,我们使用这些世界模型来执行“语义蕴涵”:语句φ由理论T(T⊧φ)蕴涵,当且仅当φ在每个世界模型中为真,其中T中的所有语句都是真。虽然一般来说,理论T或语句φ有无限多这样的世界模型,但我们学习了多个,但有限多的这样的模型,并生成作为“近似”语义蕴涵的函数预测,我们测试每个生成的世界模型的真理。使用这种形式的近似语义蕴涵,我们表明GO扩展版本中的公理增强了分子函数的预测。

DeepGO-SE模型的高级概述
此外,我们通过以蛋白质-蛋白质相互作用网络的形式整合有关生物体和相互作用体的信息,改进对复杂生物过程和细胞成分的预测。我们表明,与分子功能不同,对生物过程和细胞成分的注释预测可以从蛋白质-蛋白质相互作用中获益匪浅。对于生物过程,我们发现整合预测的分子功能和相互作用大大提高了预测的性能;这一发现表明,生物过程注释的预测不需要了解特定蛋白质,而只需要了解其分子功能,从而大大扩展了我们方法的通用性。
我们在带有实验注释的数据集上训练和评估我们的模型,该数据集根据序列相似性进行拆分,以确保使用与训练集共享类似蛋白质的测试集报告评估。我们发现,依赖序列相似性的方法在此设置中表现不佳,而DeepGO-SE显著提高了GO所有子本体的预测性能。例如,DeepGOPlus使用序列相似性和卷积神经网络(CNN)来预测函数,只能依靠其CNN及其在此测试集上的性能下降。
本文开发了DeepGO-SE,这是一种使用预训练的大型语言模型从蛋白质序列预测GO功能的方法。研究结果显示,DeepGO-SE生成多个GO近似模型,神经网络预测这些近似模型中关于蛋白质函数的陈述的真值。我们在多个模型上聚合真值,以便DeepGO-SE在预测蛋白质功能时近似语义蕴涵。
综上所述,DeepGO-SE是一种蛋白质功能预测方法,通过结合预训练的蛋白质语言模型生成的蛋白质序列特征、GO的背景知识和蛋白质之间的相互作用,提高了蛋白质的预测性能。我们的结果使我们能够得出三个主要结论:知识增强的机器学习方法现在能够改进不依赖背景知识的方法;GO函数预测最好使用单独的分层预测方法来表述;基于ESM2的函数预测模型现在可以推广到基本上看不见的蛋白质。
原文出处
Kulmanov, M., Guzmán-Vega, F.J., Duek Roggli, P. et al. Protein function prediction as approximate semantic entailment. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00795-w
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐高血压、透析、三发性甲亢不得不手术的情况,麻醉处理病例分享
- 荐【肝癌防控实录】核苷长期治疗仍进展为代偿期肝硬化的慢乙肝患者加用聚乙二醇干扰素α治疗获HBsAg血清学转换,肝组织学显著改善
- 荐基因检测无靶点,免疫治疗却带来奇迹:81岁食管黑色素瘤患者单周期免疫治疗后长期完全缓解
- 荐31岁1级毛细胞星形细胞瘤检出新型ASAP1::BRAF融合,术后复发时或可用MAPK通路抑制剂
- 荐局部晚期难治性鼻腔鳞癌血液NGS检出PTCH1突变和TMB-H,获益免疫联合维莫德吉,经3年积极治疗影像学达到完全缓解
- 荐29岁男性竟有子宫、输卵管和卵巢?首例发生于性腺发育不全的畸胎癌肉瘤,检出PIK3CA突变或为铂耐药后续潜在治疗靶点
- 荐63岁男性DNA甲基化分析提示可能为神经母细胞瘤,影像学和实验室检查进一步确诊,NGS检出潜在治疗靶点
- 荐970例脑膜瘤大样本解读:CDKN2A/B半合子缺失需细分亚型,若整条染色体9p或累及周边基因的大片段缺失,预示更高基因组不稳定和更差预后
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)