语音国家工程研究中心智能语音研究团队第四次获国际多通道语音...
整体上,团队采用序列到序列的方式来预测多个说话人的输出帧级语音/非语音概率。该模型极大降低了说话人角色分离错误率,有效地帮助了后续的分离和识别模块。??阵列鲁棒的通道挑选算法(Array-RobustChannelSelection)该算法基于波束语音信噪比挑选准则,即使对于不同的阵列分布场景,也能够自动挑选出有效通道,从而减少下...
联想取得语音识别方法及装置专利,提高了待唤醒对象的唤醒率
获取相应的待识别语音数据,先对其进行语速识别,得到其语速识别结果,选择与其相匹配的目标模型参数后,再将待识别语音数据输入采用该目标模型参数的唤醒词识别模型进行处理,相对于采用固定模型参数
科大讯飞申请语音识别专利,提高语音识别模型的识别准确率
对语音识别模型的训练过程包括两轮自监督预训练和一轮有监督的微调,在第二轮自监督预训练过程中,利用对应不同语义粒度的第一类伪标签计算语音识别模型的不同层的自监督损失,使得预训练的语音识别模型可以学习到不同粒度的语音内容信息,从而提高语音识别模型的识别准确率。
工商银行申请基于移动远场语音识别的网点客情监控专利,有效降低客...
所述方法包括:获取目标区域内目标对象的音频信息;对目标对象的音频信息进行客情分析,得到目标机器人针对于目标对象的第一客情分析结果;若第一客情分析结果为目标对象的音频信息存在客情风险,则获取其他机器人针对于目标对象的语音信息所生成的第二客情分析结果;若第二客情分析结果为目标对象的语音信息不存在客情风险,则根...
联想申请语音识别方法及装置专利,能够基于目标文本信息执行相应的...
专利摘要显示,本申请公开了一种语音识别方法及装置,其中,所述方法包括:获取至少一个对象的待识别语音信息;基于所述待识别语音信息的音频特征,确定所述至少一个对象中至少一个注册对象对应的识别文本信息,并确定所述音频特征对应的当前音区;其中,所述至少一个注册对象与至少一个注册音区具有对应关系;基于所述至少一个...
科大讯飞获得发明专利授权:“语音识别方法、装置、设备及可读存储...
专利摘要:本申请公开了一种语音识别方法、装置、设备及可读存储介质(www.e993.com)2024年7月27日。在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,基于声学特征序列进行解码处理,其中,在每个解码时刻,只对该解码时刻的候选解码路径中最后一个词被判定为实体词的候选解码路径进行激励,确定所述解码时刻的各候选解码路径的最终解码得分,最...
科大讯飞刘庆峰:科大讯飞语音识别技术已拥有80%的市场份额
下一步,科大讯飞将在原有的语音技术基础上,进一步提高语音识别技术的智能性。让科大讯飞的语音识别技术能够自动判断文章的男女角色及要表达的情感,在朗读中自动配上合适的背景音乐,能够根据需要,自动增加刮风声,下雨声和脚步声等。然后在此基础上配上虚拟形象。朗读时,这些虚拟形象除了会有恰当的面部表情、手势及...
四连冠!科大讯飞获国际多通道语音分离与识别大赛CHiME-7冠军
主赛道语音识别成绩,排名指标DA-WER取自三个数据集上的平均值,值越低成绩越好主赛道说话人角色分离成绩,排名指标DER代表说话人角色分离错误率,值越低成绩越好子赛道语音识别成绩,排名指标DA-WER取自三个数据集上的平均值,值越低成绩越好面对挑战,
AI识别方言困难?专家探索用算法度量方言差距
确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形...
我国学者实现对类脑语音的识别
目前,基于深度学习的语音识别模型,在取得高性能的同时往往依赖于高算力、高存储容量的硬件平台。这使得这些模型往往无法满足移动边缘端对低功耗、低延迟的要求,增加了边缘端计算的复杂度与能耗。脑启发的脉冲神经网络(SNN)是实现低功耗人工智能的重要途径。然而,现有的基于SNN模型的语音识别系统,由于缺乏可以高效地...