实时互动 情感陪伴,Soul App升级多模态大模型探索AI社交新可能
2023年,Soul推出自研语言大模型SoulX,成为行业中较早通过备案的科技企业之一,此后,平台先后推出了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。今年6月,Soul还在社交领域中较早推出了自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感...
SESAR框架下基于人工智能的语音识别技术即将面市
在SESAR框架内,德国航空航天中心布伦瑞克飞行引导研究所领导了MALORCA(控制器辅助语音识别模型的机器学习)和HAAWAII(集成人工智能的高度自动化空中交通管制员工作站)探索性研究项目,旨在开发一种能够分析无线电通信中的单词并理解语义内容的系统。此外,塔台数字技术和PROSA(空中交通管理中用于分离的管制员工具和团队组织)行...
微众银行申请语音大模型训练专利,提高语音大模型对困难样本的学习...
涉及语音识别技术领域,方法包括:获取当前批次的训练样本集,所述当前批次的训练样本集包括语音标注样本集;将所述当前批次的训练样本集输入到所述语音大模型中,得到文本推理结果;基于所述文本推理结果以及所述语音标注样本集,确定困难程度估计值以对所述当前批次的训练样本集进行优化,基于所述优化后的训练样本集更新所述...
易方信息取得局部特征增强的语音识别相关专利,改善模型性能
专利摘要显示,本发明提出了一种局部特征增强的语音识别方法、系统、设备及介质,方法包括:对原始音频进行预处理,获得音频特征x=(x1,…,xT1);基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果Y=(Y1,…,YM)。本发明通过可变性滑动窗口...
...方言“自由对话” 星火语音大模型破解强干扰场景下语音识别难题
刘庆峰认为,语音将成为万物互联时代人机交互的主要方式,人机交互最重要的场景是远场、噪声、多人说话、多语言,因此万物互联时代的AIUI(人工智能用户界面)要满足远场高噪声、多语言多方言、全双工、多模态等标准。面向万物互联时代,本次星火语音大模型发布国际领先的多语种多方言免切换语音识别能力,可支持37个语种、37种...
中国电信申请语音识别专利,提高粤语和普通话的识别效果准确率
语音类型,其中,语音类型包括:方言和普通话;根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型,其中,语音识别模型包括:用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型;采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别,得到识别...
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zip...
Zipformer[1]作为一个新型的自动语音识别(ASR)模型,相比较于Conformer[2]、Squeezeformer[3]、E-Branchformer[4]等主流ASR模型,Zipformer具有效果更好、计算更快、更省内存等优点。Zipformer在LibriSpeech、Aishell-1和WenetSpeech等常用的ASR数据集上都取得了当前最好的实验结果。
大模型时代的ASR就是不一样!豆包听力水平现场评测,直接拿捏!
具体来说,豆包﹒语音合成模型升级了流式语音合成能力,能够实时响应、精准断句,支持“边想边说”。豆包﹒语音识别模型,可基于更强上下文感知能力,推理得出更准确的识别结果,并支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。
字节豆包大模型已支持实时语音通话
该方案通过火山引擎RTC实现语音数据的采集、处理和传输,并深度整合豆包??语音识别模型和豆包??语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。▲对话式AI实时交互服务方案架构...
阿里音频生成大模型开源!50种语言快速理解+5种语言语音生成
最新发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言识别,效果优于Whisper模型,中文与粤语提升50%以上。且情感识别能力强,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测,多方面测试拿...