化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物
第一时间掌握
聚合物是我们日常生活中不可或缺的一部分,几乎触及生活的方方面面。从塑料袋、水瓶,到橡胶和木材,再到DNA、RNA等。
聚合物化学空间如此之大,为识别合适的特定应用候选聚合物提供了前所未有的机遇和重大挑战。
聚合物信息学这个新兴领域可以深入了解聚合物「宇宙」,其中机器学习(ML)模型极具潜力。
近日,来自佐治亚理工学院(GT)的研究人员提出了一种化学语言模型:polyBERT——一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性在这个空间中搜索合适的候选聚合物。
polyBERT是一位化学语言学家,将聚合物的化学结构视为一种化学语言。
该方法超越了目前基于手工指纹方案的聚合物性能预测的最佳概念,在保持准确性的同时,速度提高了两个数量级,从而使其成为部署在包括云基础设施在内的可扩展架构中的强有力候选者。
该研究以「polyBERT:achemicallanguagemodeltoenablefullymachine-drivenultrafastpolymerinformatics」为题,于2023年7月11日发布在《NatureCommunications》上。
论文链接:https://www.nature.com/articles/s41467-023-39868-6
机器学习框架在聚合物特性预测器的开发和解决逆向问题方面取得了实质性进展,在逆向问题中,满足特定特性要求的聚合物要么从候选集中识别,要么使用遗传或生成算法重新设计。
聚合物信息学管道中的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图1a中的蓝色框)。
过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这种手工制作的指纹建立在宝贵的直觉和经验的基础上,但它们开发起来很乏味,涉及复杂的计算,通常会消耗模型训练和推理期间的大部分时间,并且缺乏对所有高分子化学类别的泛化。
因此,使用手工指纹的机器学习管道在探索新的聚合物化学类别时很容易出错。此外,手工制作的指纹为完全机器驱动的管道的开发和部署带来了障碍,这些管道适合云计算和高吞吐量环境中的可扩展性。
克服前面提到的限制的一种方法是用完全机器制作的「Transformer」指纹代替手工制作的指纹(见图1a的右侧管道)。Transformer已成为ML语言建模的黄金标准。
另一种有前途的神经网络架构,即图神经网络,它将化学结构视为图,已应用于分子和聚合物化学空间。与Transformer相反,图神经网络将原子表示为节点,将键表示为图的边,从而对原子之间的直接和扩展连接进行编码。因此,图神经网络并不像Transformer那样直接基于PSMILES字符串,而是依赖于需要为每个节点计算并分配给每个节点的一组初始特征向量(例如原子类型、隐式价等)。
在此,研究人员设想将简化分子线性输入规范(SMILES)字符串作为聚合物的「化学语言」来表示聚合物。研究使用数百万个聚合物SMILES(PSMILES)字符串来训练名为polyBERT的语言模型,使其成为聚合物化学语言的专家(语言学家)。与多任务深度神经网络相结合,polyBERT实现了完全端到端机器驱动的聚合物信息学管道,该管道使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集中的固有相关性,在云计算环境中轻松扩展,并推广到多个预测任务。
该研究几个关键要素如下:
首先,通过枚举组合从13000多种合成聚合物列表中提取的化学片段,生成了1亿个假设聚合物的数据集。
接下来,使用这个假设的聚合物数据集来训练PolyBERT(一种基于DeBERTa的仅编码器Transformer),使其成为一名高分子化学语言学家。在训练过程中,polyBERT学习将输入PSMILES字符串转换为其用作聚合物指纹的数字表示。
最后,使用其多任务机器学习框架将PolyBERT指纹映射到大约36种聚合物属性,以产生完全机器驱动的超快聚合物属性预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前开创的基于手工制作的PolymerGenome(PG)指纹的管道进行了比较。使用超快的PolyBERT聚合物信息学管道,能够预测1亿种假设聚合物的属性,旨在找到聚合物宇宙的属性边界。
该研究通过利用语言、数据和人工智能模型的力量,有助于加快聚合物的发现、设计、开发和部署。
属性预测
为了对PolyBERT和PG指纹的属性预测准确性进行基准测试,研究人员为表1中定义的每个属性类别训练多任务深度神经网络。
表1:属性预测器的训练数据集。(来源:论文)
图2a显示了29种聚合物特性交叉验证过程的五个验证数据集的决定系数(R^2)平均值和标准差。研究发现共聚物的热性能和机械性能(相对于均聚物)的预测精度更高,而透气率的预测精度稍差,这与之前的发现类似。
图2b显示了每个元学习器(每个类别一个)的高R^2值,表明所有属性都具有出色的预测性能。
基于PolyBERT的超快且准确的聚合物信息学管道使研究人员能够预测最初为训练polyBERT而创建的1亿个假设聚合物的所有29个属性。图2c显示了每个属性的最小值、平均值和最大值。
总体而言,PG表现最好(R^2 = 0.81),但紧随其后的是polyBERT(R^2 = 0.80)。指纹类型的整体性能顺序与类别平均值和属性一致,但Xc、 Xe和ϵb除外,其中polyBERT略优于PG指纹。注意到,polyBERT和PG指纹都是聚合物特征化的实用途径,因为它们的R^2值非常接近并且通常很高。polyBERT指纹具有手工制作的PG指纹的准确性,但速度快了两个数量级以上。
PolyBERT的其它三个优势
前馈网络在PolyBERT自监督训练期间预测屏蔽标记,能够将数字潜在空间(即指纹)映射到PSMILES字符串。
polyBERT方法的第二个优点是可解释性。更详细地分析PolyBERT指纹的化学相关性可以揭示聚合物结构部分的化学功能和相互作用。
PolyBERT方法的另一个优点是它覆盖整个化学空间。分子SMILES字符串是聚合物SMILES字符串的子集,仅区别两个星([*])符号,表示聚合物重复单元的两个端点。polyBERT没有内在的限制或功能来阻碍预测分子SMILES字符串的指纹。
总之,polyBERT是一种可通用、超快且准确的聚合物信息学管道,可在云硬件上无缝扩展,适用于巨大聚合物空间的高通量筛选。polyBERT能够大规模探索这个巨大的聚合物宇宙。PolyBERT为新型聚合物的发现铺平了道路。