这个大模型“懂方言”

2024-07-10 07:37:22 - 检察日报

近日，中国电信人工智能研究院发布了支持30种方言自由混说的语音识别大模型，打破了单一模型只能识别特定单一方言的困境。该模型可同时理解并识别广东话、上海话、四川话等30多种方言。

该模型基于几亿用户数据和丰富的应用场景、超30万小时的高质量方言数据库，研发团队通过超大规模语音预训练和多方言联合建模，实现了单一模型支持30多种方言自由混说语音识别技术。同时，研发团队创新训练算法，解决了超大规模多场景数据集和大规模参数条件下，进行预训练生成模型时的输出重复、缺乏多样性等问题，实现模型的稳定训练。该模型是基于离散语音表征的语音识别大模型，将推理时语音传输比特率降低数十倍。

据悉，该模型已在福建、江西、广西等地的智能客服试点应用。接入大模型后，智能客服能秒懂方言，日均处理约200万通电话。该大模型还将落地多地市12345政务服务便民热线平台，为客服人员赋能，有效提升沟通效率，助力政务工作智能化升级。

——《科技日报》