实时互动情感陪伴,Soul App升级多模态大模型探索AI社交新可能

2024年10月29日 - 站长之家

2023年,Soul推出自研语言大模型SoulX,成为行业中较早通过备案的科技企业之一,此后,平台先后推出了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。今年6月,Soul还在社交领域中较早推出了自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感...

详情

SESAR框架下基于人工智能的语音识别技术即将面市

2024年10月29日 - 新浪

在SESAR框架内,德国航空航天中心布伦瑞克飞行引导研究所领导了MALORCA(控制器辅助语音识别模型的机器学习)和HAAWAII(集成人工智能的高度自动化空中交通管制员工作站)探索性研究项目,旨在开发一种能够分析无线电通信中的单词并理解语义内容的系统。此外,塔台数字技术和PROSA(空中交通管理中用于分离的管制员工具和团队组织)行...

详情

微众银行申请语音大模型训练专利,提高语音大模型对困难样本的学习...

2024年10月18日 - 金融界

涉及语音识别技术领域,方法包括:获取当前批次的训练样本集,所述当前批次的训练样本集包括语音标注样本集;将所述当前批次的训练样本集输入到所述语音大模型中,得到文本推理结果;基于所述文本推理结果以及所述语音标注样本集,确定困难程度估计值以对所述当前批次的训练样本集进行优化,基于所述优化后的训练样本集更新所述...

详情

易方信息取得局部特征增强的语音识别相关专利,改善模型性能

2024年8月25日 - 新浪财经

专利摘要显示,本发明提出了一种局部特征增强的语音识别方法、系统、设备及介质,方法包括:对原始音频进行预处理,获得音频特征x=(x1,…,xT1);基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果Y=(Y1,…,YM)。本发明通过可变性滑动窗口...

详情

...方言“自由对话” 星火语音大模型破解强干扰场景下语音识别难题

2024年6月28日 - 荆楚网

刘庆峰认为,语音将成为万物互联时代人机交互的主要方式,人机交互最重要的场景是远场、噪声、多人说话、多语言,因此万物互联时代的AIUI(人工智能用户界面)要满足远场高噪声、多语言多方言、全双工、多模态等标准。面向万物互联时代,本次星火语音大模型发布国际领先的多语种多方言免切换语音识别能力,可支持37个语种、37种...

详情

中国电信申请语音识别专利,提高粤语和普通话的识别效果准确率

2024年3月11日 - 金融界

语音类型,其中,语音类型包括:方言和普通话;根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型,其中,语音识别模型包括:用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型;采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别,得到识别...

详情

小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zip...

2023年12月18日 - 腾讯新闻

Zipformer[1]作为一个新型的自动语音识别(ASR)模型,相比较于Conformer[2]、Squeezeformer[3]、E-Branchformer[4]等主流ASR模型,Zipformer具有效果更好、计算更快、更省内存等优点。Zipformer在LibriSpeech、Aishell-1和WenetSpeech等常用的ASR数据集上都取得了当前最好的实验结果。

详情

大模型时代的ASR就是不一样!豆包听力水平现场评测,直接拿捏!

2024年8月22日 - 网易

具体来说,豆包﹒语音合成模型升级了流式语音合成能力,能够实时响应、精准断句,支持“边想边说”。豆包﹒语音识别模型,可基于更强上下文感知能力,推理得出更准确的识别结果,并支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。

详情

字节豆包大模型已支持实时语音通话

2024年8月9日 - 网易

该方案通过火山引擎RTC实现语音数据的采集、处理和传输,并深度整合豆包??语音识别模型和豆包??语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。▲对话式AI实时交互服务方案架构...

详情

阿里音频生成大模型开源!50种语言快速理解+5种语言语音生成

2024年7月7日 - 网易

最新发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言识别,效果优于Whisper模型,中文与粤语提升50%以上。且情感识别能力强,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测,多方面测试拿...

详情

查看更多

语音识别中的建模包括和语言建模
语音识别模型开源
语音识别中的语言模型
语音识别的范畴
语音识别的模型包括什么
语音识别常用模型
语音识别的模型包括哪些
语音识别的类型
语音识别模块有哪些
语音识别的模型包括哪几种

实时互动 情感陪伴,Soul App升级多模态大模型探索AI社交新可能