清华大学集成电路学院任天令团队研发出混合模态语音识别和交互...
清华新闻网2月24日电近日,清华大学集成电路学院任天令教授及合作团队在智能语音交互方面取得重要进展,其研发的可穿戴人工喉可以感知喉部发声相关的多模态机械信号以用于语音识别,并依靠热声效应播放对应的声音,研究结果为语音识别与交互系统提供了一条新的技术途径。图1.基于智能可穿戴人工喉的语音交互范式语音是人...
AI语音交互新维度:心辰Lingo端到端语音大模型的全面能力探索
端到端语音大模型则是一种更为全面的技术,它不仅可以语音识别,还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节,实现了从语音输入到语音反馈的完整交互过程,极大地丰富了人机交互的深度和广度。心辰Lingo端到端语音大模型,作为国内首个能力追齐GPT-4o语音能力的模型,技术能力上具备以下三个显著特点...
国内首款蒙古语语音识别和语音合成系统诞生
内蒙古大学发布消息,国内首款蒙古语语音识别和语音合成系统日前研制成功。蒙古语语音识别和语音合成系统由内蒙古自治区蒙古文信息处理技术重点实验室自主研制。据介绍,蒙古语语音识别系统实现蒙古语大词汇量连续语音识别功能,识别正确率达到90%以上。这两款系统的成功研
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
在公布技术报告之前,Seed-TTS部分技术已在C端产品上线一段时间,获得用户很多真实好评,并对外以豆包语音合成模型和豆包声音复刻模型进行技术商业化服务。关于该成果的技术亮点、研究价值、克服了哪些挑战,不妨听听团队的分享。一个语音生成基座大模型Q:Seed-TTS已被一些圈内人关注到,有什么认可,让你印象很深?
科大讯飞:科大讯飞在语音合成、语音识别、语言理解、机器翻译...
同花顺(300033)金融研究中心9月24日讯,有投资者向科大讯飞(002230)提问,科大讯飞在AI领域的核心技术除了语音合成,再有什么?公司回答表示,您好,科大讯飞在语音合成、语音识别、语言理解、机器翻译、常识推理、机器阅读理解、图文识别等人工智能关键核心技术领域拥有一系列的国际领先的成果。
科大讯飞申请语音识别技术专利,能够有效提升语音识别的准确性
专利摘要显示,本申请提供了语音识别方法、装置、设备、存储介质及程序产品,具体实现方案为:获取待识别语音和伪语音,其中,所述待识别语音为多通道音频,所述伪语音是与所述多通道音频的音频序列长度相同的音频;对所述待识别语音的各个通道音频中的每一音频帧,以及所述伪语音的每一音频帧进行特征融合,得到各个通道音频...
中国AI大模型平台排行榜 | 8月
与此同时字节跳动旗下的火山引擎推出了一项对话式AI实时交互解决方案,该方案整合了火山引擎的RTC技术与豆包大模型,旨在提供更自然、流畅的AI实时语音通话体验。这项服务通过高效的语音数据采集、处理和传输,结合语音识别和语音合成模型,简化了语音与文本之间的转换过程,使企业能够快速实现用户与云端大模型间的实时语音交流...
科大讯飞刘庆峰:科大讯飞语音识别技术已拥有80%的市场份额
12月12日19:00,科大讯飞董事长刘庆峰作客新东方教育集团创始人俞敏洪直播间,就“让人工智能创造新的未来”这一话题分享了自己的看法。在谈到在人工智能领域占重要地位的语音识别、合成技术时,刘庆峰表示,科大讯飞的语音识别及合成技术已占有国内70%-80%的市场份额。
在与谷歌、微软等国际厂商的盲测对比中,科大讯飞多语种智能语音...
多语种智能语音技术,指的是包含多语种语音识别、多语种语音合成、多语种翻译技术等为一体的综合技术。多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,是当前国际科技竞争核心焦点之一。为推动中国多语种智能语音技术走在世界前沿,科大讯飞股份有限公司牵头,联合中国科学技术大学、清华大学...
阿里音频生成大模型开源!50种语言快速理解+5种语言语音生成
生成语音客观指标研究团队分别在开源中文数据集Aishell3以及英文数据集LibriTTS上,通过语音识别测试了合成音频的内容一致性。通过与原始音频以及最近大火的ChatTTS对比,可以发现CosyVoice的合成音频在内容一致性上更高,并且没有很少存在幻觉额外多字的现象。