科大讯飞申请语言模型训练方法专利,具有较低的内存需求和较低的流水空泡率

2024-06-17 16:50:19 - 金融界网站

转自:金融界

本文源自:金融界

金融界2024年6月14日消息,天眼查知识产权信息显示,科大讯飞股份有限公司申请一项名为“一种语言模型训练方法及相关装置“,公开号CN202410623693.3,申请日期为2024年5月。

专利摘要显示,本申请公开了一种语言模型训练方法及相关装置,涉及模型训练技术领域,训练方法包括:将语言模型部署于多个计算设备上,每个计算设备上部署语言模型的一个或多个层;获取训练样本集,训练样本集包括从训练序列集中获取的A个长度为S的训练序列;对训练样本集进行划分,得到多个训练样本子集,每个训练样本子集包括B个长度为S的训练序列,B小于A;对多个训练样本子集分别在序列维度进行切分,得到多个训练样本子集分别对应的子序列块集;利用多个训练样本子集分别对应的子序列块集中的各子序列块,采用流水并行的训练方式,控制多个计算设备进行模型训练。本申请公开的语言模型训练方法具有较低的内存需求和较低的流水空泡率。

今日热搜