研究人员开发可打破深度物理神经网络障碍的算法

2023-12-12 10:00:41 - 媒体滚动

研究人员开发可打破深度物理神经网络障碍的算法

通过算法“学习”而非传统编程来处理海量数据,ChatGPT等深度神经网络的潜力似乎是无限的。但是,随着这些系统的范围和影响不断扩大,其规模、复杂性和能耗也随之增加——后者的重要性足以引起人们对全球碳排放的担忧。虽然我们通常认为技术进步是从模拟到数字的转变,但研究人员现在却在数字深度神经网络的物理替代品中寻找这一问题的答案。

EPFL工程学院波工程实验室的罗曼·弗勒里(RomainFleury)就是这样一位研究人员。在发表于《科学》(Science)的一篇论文中,他和他的同事描述了一种训练物理系统的算法,与其他方法相比,该算法提高了速度、增强了鲁棒性并降低了功耗。

“我们成功地在三个基于波的物理系统上测试了我们的训练算法,这些系统使用声波、光波和微波而不是电子来携带信息。但我们的多功能方法可用于训练任何物理系统。”第一作者、波工程实验室(LWE)研究员阿里·莫梅尼(AliMomeni)说。

更符合生物学原理的方法神经网络训练是指帮助系统学习如何为图像或语音识别等任务生成最佳参数值。它传统上包括两个步骤:前向传递,即通过网络发送数据,并根据输出计算误差函数;后向传递(也称为反向传播,或BP),即计算误差函数相对于所有网络参数的梯度。

在反复迭代的过程中,系统会根据这两个计算结果进行自我更新,从而返回越来越精确的数值。问题出在哪里?除了非常耗能之外,后向传递还不适合物理系统。事实上,训练物理系统通常需要一个数字孪生来完成后向传递步骤,这不仅效率低下,而且还存在现实与模拟不匹配的风险。

科学家们的想法是用物理系统的第二次前向传递取代后向传递步骤,在本地更新每个网络层。除了降低功耗和无需数字孪生外,这种方法还能更好地反映人类的学习情况。“神经网络的结构受到大脑的启发,但大脑不太可能通过后向传递学习。”莫梅尼解释道,“新的想法是,如果我们对每个物理层进行本地训练,我们就可以使用实际的物理系统,而不是首先建立一个数字模型。因此,我们开发出了一种更符合生物学原理的方法。”

EPFL的研究人员与法国国家科学研究中心电子与数字技术研究所(CNRSIETR)的菲利普·德尔·乌尔涅(PhilippdelHougne)和微软研究院的巴巴克·拉赫马尼(BabakRahmani)一起,利用他们的物理局部学习算法(PhyLL)训练实验声学和微波系统以及一个模型光学系统,对元音和图像等数据进行分类。

除了显示出与基于后向传递的训练相当的准确性外,该方法还具有鲁棒性和适应性——即使是在受到不可预测的外部扰动的系统中——与目前的技术水平相比也是如此。

未来的模拟

虽然EPFL波工程实验室的方法首次实现了深度物理神经网络的无后向传递训练,但仍然需要对参数进行一些数字更新。

“这是一种混合训练方法,但我们的目标是尽可能减少数字计算。”莫梅尼说,“在我们的实验中,我们使用了最多10层的神经网络,但如果有100层、数十亿个参数,它还能工作吗?这是下一步需要克服物理系统的技术限制。”

研究人员现在希望在小型光学系统上实现他们的算法,最终目标是提高网络的可扩展性。(逸文)

今日热搜