专访天壤XLab实验室负责人苗洪江博士:自动生成蛋白质技术可助力罕见病、新材料等前沿创新
《科创板日报》3月17日讯(记者金小莫)自动生成技术最近风头正劲。除应用于社交、办公等场景外,记者另获悉,它也可以在蛋白质设计上有所作为,这在业内被称为AIGP,即AIGeneratedProtein,自动生成蛋白质。
在《生物版ChatGPT来了!可“一键生成”蛋白质应用多以开源为主》一文中,《科创板日报》记者就AIGP进行了简单科普并展现了其未来的应用可能。本文,记者将进一步对话AIGP的行业人士,以期帮助读者们进一步了解这一前沿技术。
本期对话嘉宾为天壤XLab负责人苗洪江博士。苗博士博士毕业于伦敦帝国理工学院自然科学系,师从结构生物信息领域的奠基人、英国皇家生物学会院士MichaelJ.E.Sternberg教授,为计算生物学领域专家,在人类基因组学、遗传代谢组学、蛋白质组学等领域具有深厚积累。
苗博士曾创新性开发预测蛋白质结构的机器学习方法PhyrePower,将可预测的蛋白质空间扩大约30%。2019年,苗洪江博士加入天壤,担任XLab实验室负责人,带领团队实现了国内首个AI+蛋白质计算设计工作台的建设。
问:此前DeepMind宣布,AlphaFold已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构,以后确定科学已知的蛋白质预测模型将像用“谷歌搜索”一样简单。此前科研人员们已经AI来进行小分子药物的研发,为什么直到最近才有了AI在大分子领域的一些探索呢?
答:蛋白质设计本身就是一个门槛超高的交叉领域,串联着非常多的学科知识。在这个领域的研究人员不仅需要具备生物计算的能力,还要具备极强的结构生物学、计算化学、物理学等多方面的知识背景,高门槛导致了整个领域的推广很难进行。
其实,蛋白质设计已经进入第四个阶段,每一阶段的能力提升都与人类对蛋白质结构的理解分不开。
第一个阶段是最早期的20世纪90年代。这个阶段只有少量的蛋白质结构被解析,对于蛋白质折叠的理解也非常局限,这使得当时完全无法实现功能上的设计,只能通过手动拼接出很简单的二级结构片段。
第二个阶段,随着蛋白质数据库中的结构信息增加,研究人员得以从这些信息中总结出理性经验,并根据这些专家经验组装出了结构更加复杂的蛋白质。
随着蛋白质三维结构数据的快速增长,第三个阶段中研究人员从中归纳出影响蛋白质折叠的能量函数关系及分子动力学原理,通过天然蛋白质片段拼接和能量函数最小化的方式设计出了与天然蛋白质结构截然不同的全新蛋白质。在这个阶段研究人员开始尝试将目标功能注入所设计的蛋白质中,但由于设计流程十分复杂、专家经验要求极高,致使蛋白质设计落地应用非常困难。
最近,蛋白质折叠难题被AI算法“破解”,以AI为主导的蛋白质设计在2022年彻底爆发,实现了自动探索巨大的蛋白质空间。现在,借助AI的生成能力,研究人员已经能够从头设计全新蛋白质,产业化应用也变得更加容易且丰富多样,标志着蛋白质设计已经进入了全新的时代。但在实际的大范围产业实践推广中,仍有各种困难阻碍。
问:关于这些困难阻碍,您可否展开具体说说?与AIGC相比的话,AIGP还有哪些特殊的地方呢?
答:主要在于蛋白质自身的特殊性。首先,蛋白质的可折叠空间巨大:以100个氨基酸长度的蛋白质为例,它的可能序列的数量是20^100=1.3×10^130。要计算出准确的蛋白质,需要大模型、大算力、大数据等足够资源支持,这对于传统的研发机构和企业来说成本是非常高昂的。
其次是模型的训练数据非常稀缺。对于算法来说,需要优质数据来强化学习反馈,这需要人工对AI生成的答案进行标注。这在AIGC上较容易实现,而AIGP则需要通过实验反馈数据,并需要专业的科研人员来对数据进行高质量的标注,挑战大。
最后,当前的蛋白质设计算法相对复杂,既要保证设计的蛋白质结构和序列的新颖性,又要确保设计结果满足各方面的应用需求以及蛋白质本身的折叠原理和特性,不仅推理时需要较大算力支持,对于研发人员使用时的技术门槛较高,很难广泛下沉到产业中去,急需像ChatGPT这种易用的交互支持。
问:如果实现了AIGP,对于行业来说,有什么样的意义呢?
答:人类已知的天然蛋白质数量为10^15,而潜在的从头设计蛋白质数量远超于已知天然蛋白质。这被我们称为是“5%之外的世界”:
以人体内的蛋白质来说,目前大多数人类蛋白质功能研究都聚焦于约5000种研究较多的人类蛋白质,而人体内还存在着一个巨大的蛋白质世界。事实上,这些功能未知的蛋白质可能掌握着打开解决人类重大疾病的钥匙,如癌症、阿尔兹海默症以及多种罕见病。
除生命科学外,生物合成、新材料、新能源和食品等领域对功能蛋白质也存有巨大的需求。整个蛋白质大分子还拥有巨大的潜在探索空间,蕴藏着无穷无尽、具有极大应用价值。
问:您可否介绍一下天壤Xlab是怎么做的?有哪些成果经验可分享?
答:天壤成立于2016年;2019年启动了蛋白质结构预测项目天壤XLab;2021年发布蛋白质结构预测模型TRFold2,基于CASP14测试集的预测精准度位居国内第一、全球第二;2022年9月,我们发布蛋白质设计平台xCREATOR及设计模型TRDesign,实现按需设计蛋白质;2023年我们上线了将生成式扩散模型应用于蛋白质设计的TRDiffusion,实现可编程的蛋白质从头设计,“一键生成”满足描述的蛋白质。
2020年,AlphaFold2的出现让人兴奋,将生物学带入新时代。作为国内AI创新企业,面对这样的颠覆性技术,我们在团队人力、资源有限的条件下,从底层核心技术做起,自研核心算法,以迭代升级神经网络技术大幅降低网络模型训练消耗,输出世界顶尖的AI能力。
除算法之外,我们将AI计算平台与自动化实验平台相结合,创新性提出按需设计的理念,将蛋白质开发从机会性游戏转变为高确定性的、可预测的生成流程。具体来看,我们有以下几个创新流程:
专注蛋白质设计工作台:完善从设计、分析、验证的平台功能,围绕蛋白质设计,On-Demand可控地设计蛋白质,产生世界级的成果;
干湿结合,高通量,快速迭代设计及验证:加速研发效率,提升准确率、成功率;
通过合作项目完善流程:跑通从设计-分析-验证的流程,跨过交叉学科间的壁垒,让工作台真正好用易用;
建立合作加速实验室成果和产业落地转化:和高校、研究机构、制药公司建立合作,设计和生成所需要的蛋白质。