【中国科技网】深度学习助力蛋白质序列从头设计
经过实验验证,ABACUS-R的设计成功率和设计精度超过了原有统计能量模型ABACUS。研究成果北京时间7月21日发表于《自然-计算科学》。刘海燕、陈泉团队长期致力于发展数据驱动的蛋白质设计方法,先后建立并实验验证了对给定主链结构设计氨基酸序列的统计能量函数ABACUS模型,以及利用神经网络能量函数从头设计主链结构的SCUBA模型。
打破AlphaFold大模型局限,世界最大蛋白质相互作用数据集AlphaSeq...
他们最近发布的AlphaSeq数据库专注于蛋白质-蛋白质相互作用(protein-proteininteraction,PPI),包含了超过7.5亿条测量结果,构成了世界上最大的PPI数据集。在AlphaSeq数据的基础上,训练出的AlphaBind模型可以准确预测有不同结合特性(亲和力、特异性、交叉反应性、表位等)的蛋白质序列,从而辅助蛋白质设计或发现全新的蛋...
新华网财经观察|大模型落地应用:难点与破局
目前地球上已知的蛋白质约有两亿种,每一种蛋白质都有独特的空间结构。自然界经过漫长的生命进化过程,蛋白质分子在瞬息间就能自发完成整个折叠过程。但科学家若想通过计算氨基酸分子间的相互作用来预测其折叠方式,则要穷尽所有可能的蛋白质构型,需要的时间将超过整个宇宙的年龄。“现在通过使用AI技术,可以在很短的时...
计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型
来自深度语言模型的蛋白质表征,已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来,进展主要集中在参数计数上,最近模型的容量超过了它们所训练的数据集的大小。牛津大学(UniversityofOxford)的研究人员提出一个替代方向。他们证明,在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征,并且在...
Nature: 一种基于宏基因组序列空间生成无参考的蛋白质家族的计算...
在此,我们开发了一种计算方法,从宏基因组的序列空间中生成无参考的蛋白质家族,以研究目前通过参考基因组所能实现的功能多样性之外尚未开发的功能多样性。我们分析了26,931个宏基因组,识别出11.7亿个长度超过35个氨基酸的蛋白质序列,这些序列与102,491个参考基因组或Pfam数据库中的任何序列都不相似。
在朱鹮的帮助下,肖汉团队让细胞化身药物工厂,生产含非天然氨基酸...
随后,他们使用这些细胞制备具有位点特异性硫酸化作用的高效凝血酶抑制剂(www.e993.com)2024年9月27日。凝血酶抑制剂模型显示,在药物中加入非天然成分可以使药物更有效。研究团队表示,希望结合生物信息学和计算筛选来产生一个生物合成的非天然氨基酸库,以扩大治疗性蛋白质的制备,从而允许在整个生物体水平上应用密码子扩展技术。
AlphaFold 为什么能精准预测蛋白质结构?
这是蛋白质结构预测界的奥林匹克竞赛,来自世界各地的参赛团队会拿到未知结构的蛋白质的氨基酸序列,然后使用自己的算法预测其三维结构,最后和实验测定结果进行比较,相似度越高分数就越高。在这一年的比赛中,AlphaFold2取得了中位数分数92.4分(满分100分;90分以上被认为预测方法可与实验方法媲美)的高分预测...
20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP...
PLMs以无监督的方式学习数百万蛋白质中氨基酸序列的分布特征,在揭示蛋白质序列与其功能之间的隐含关系方面显示出了巨大的潜力,因此有助于高效地探索大量的设计空间。如今,预训练的PLMs在缺少实验数据的情况下已经取得了显著进展,但其准确性和可解释性仍有待提高。此外,传统监督学习模型需要大量的标记训练样本,这...
蛋白质集合生成-VAE
分子动力学(MD)轨迹通过模拟蛋白质在原生结构周围的运动来生成蛋白质集合,并且经常在进行小分子对接计算之前生成集合,但通常无法识别未结合结构中不存在的隐蔽配体结合口袋,或者需要非常长的、因此计算密集的模拟(通常在亚到数微秒的水平上)。Rosetta碎片组装和最小化以及运动闭合方法已用于建模蛋白质和环构象多样性,但...
氨基酸行业专题报告:助益粮食安全,借力合成生物
62%和22%,相较于多种化工品而言(参考华泰研究于2023年7月16日发布的研报《出口需求或成为本轮化工复苏的基础》),大品种氨基酸属于直接出口占比相对较高的品种,主要系海外养殖体系相对国内而言更为成熟,对于低蛋白日粮饲料技术的使用亦更为广泛,因此阶段性而言,出口端景气也成为支撑氨基酸需求的重要...