小米新一代Kaldi解读:新型自动语音识别 模型Zipformer诞生之路
论文解读摘要Zipformer[1]作为一个新型的自动语音识别(ASR)模型,相比较于Conformer[2]、Squeezeformer[3]、E-Branchformer[4]等主流ASR模型,Zipformer具有效果更好、计算更快、更省内存等优点。Zipformer在LibriSpeech、Aishell-1和WenetSpeech等常用的ASR数据集上都取得了当前最好的实验结果。
梅开二度!网易易盾两篇论文再度入选语音学术顶会INTERSPEECH 2023
1.人工配置语种实现对特定语种的语音识别能力,如特定国家或地区的内容平台;2.未知语种信息时支持对任意语种语音的自动识别,如多语种内容平台。结合实际业务需求和上述提出的方法,易盾AI团队设计了基于LR-MoE的多语种语音识别架构,通过模型内置、灵活可配的帧级语种分类器,支持多语言多需求的智能语音内容检测。上...
突破语音技术难题,网易云商论文入选国际语音会议ASRU
语音识别的整个过程,简单粗暴可以分为四步:语音输入——编码——解码——输出。拿我们熟悉的微信语音转文字场景为例,输入一段语音,先要经过编码(将原始语音信号转换为数字表示,以便计算机可以对其进行处理和分析),然后进行解码(将数字表示的语音信号转换为模拟语音信号),最后输出文字结果。在编码环节,为了将原始的语音...
Kriston AI Lab与新加坡国立大学联合发布论文 语音识别实现突破
1、两种语言均可以作为主语语言,语码转换时两种语言的比例不影响语音识别的性能;2、语言模型混淆度(PPL)相对目前最好的多语种切换语言模型建模算法能降低20%以上,语音识别词错率相对目前最好的多语种切换语音识别算法能降低25%以上;3、该算法可用于多语种切换的规范化,即,将两个语种混杂的文本规范化为统一的语种...
5.5%语音识别词错率究竟如何炼成?IBM发布相关研究论文
IBM发布相关研究论文选自arXiv机器之心编译参与:晏奇、吴攀语音识别是人工智能领域所研究的核心问题之一,研究者一直以来都在竞相努力以期能首先达到比肩人类的里程碑。去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER)——达到了5.9...
网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听...
面对如此激烈的竞争,网易智企易盾AILab团队凭借一篇语音识别方向的论文《ImprovingCTC-basedASRModelswithGatedInterplayerCollaboration(基于CTC的模型改进,实现更强的模型结构)》脱颖而出,成功拿到了前往希腊罗德岛线下参会的门票(www.e993.com)2024年7月25日。“GIC”,助力语音识别更进一步...
搜狗ICASSP论文:基于模态注意力的端到端音视觉语音识别
雷锋网AI科技篇按:在近期举办的语音顶会ICASSP2019上,搜狗联合清华天工研究院发表了一篇有意思的论文:基于模态注意力的端到端音视觉语音识别。简单来说,即引入「基于模态注意力的端到端」方法,有机地融合了语音和唇部动作信息,显著提高了嘈杂环境中语音识别的效果。
字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会
四、音频理解:提升语音识别定制化性能,优化数据标注质量在音频理解方向,字节跳动火山语音团队基于细粒度语境知识选择的端到端(语境)语音识别提升方法、非自回归Transformer自动语音识别的最小词误差训练、使用梯度掩码改进端到端语音识别的伪标签训练论文被ICASSP2022收录。
在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型
关键词识别(KeywordSpotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行语音交互时起到重要作用。△关键词识别pipeline近日,ARM和斯坦福大学合作开源了预训练TensorFlow模型和它们的语音关键词识别代码,并将结果发表在论文HelloEdge:KeywordSpottingonMicrocontrollers中。
语音识别技术如何突围?搜狗走了一条音视觉结合之路
看点:多模态识别再获进步,搜狗联合清华将音视觉融合,提升语音识别的效果,论文已被ICASSP2019收录。有一个像科幻电影《Her》中的虚拟助理(女友),大概是人们对人工智能美好的憧憬,尽管这一天可能还很遥远。为了实现这一技术突破,前几年行业更多聚焦语音交互各个难题,而近两年,一些技术先行者开始尝试将语音、视觉、文...