阿里云通义千问开源语音基座模型,识别效果优于OpenAI Whisper
IT之家7月9日消息,阿里云通义千问开源了两款语音基座模型SenseVoice(用于语音识别)和CosyVoice(用于语音生成)。SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测,有以下特点:多语言识别:采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型富文本识别:具备优秀...
阿里开源FunAudioLLM:SenseVoice语言识别和CosyVoic语音克隆均已...
阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆SenseVoice:精准多语言识别与情感辨识SenseVoice主要致力于高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言的识别,其效果显著优于现有的Whisper模型,尤其在中文和粤语...
阿里开源视频自动化剪辑工具FunClip 支持中文语音识别
品玩5月14日讯,据魔搭社区页面显示,:阿里巴巴通义实验室最近开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音内容裁剪视频,大大提高了视频编辑的效率。该工具使用阿里巴巴的FunASRParaformer-Large模型,确保了剪辑的精准性。用户可...
chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !
-多语言语音识别(MultilingualSpeechRecognition):将语音转换为与语音相同语言的文本,比如将英语语音转换为英语文本,或者将中文语音转换为中文文本。-语音翻译(SpeechTranslation):将语音从一种语言翻译成另一种语言的文本,比如将英语语音翻译成中文文本,或者将中文语音翻译成英语文本。-语言识别(LanguageIdentificatio...
阿里音频生成大模型开源!50种语言快速理解+5种语言语音生成
最新发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言识别,效果优于Whisper模型,中文与粤语提升50%以上。且情感识别能力强,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测,多方面测试拿...
AI日报:GPT-4o新版本上线;面壁智能开源手机版“GPT-4V”;华为推3D...
10、以色列公司推出速度提升50%的开源语音识别模型WhisperMedusaaiOla公司推出的WhisperMedusa开源语音识别模型在处理速度上取得了重大突破,比OpenAI的Whisper模型快50%,引起了业界广泛关注(www.e993.com)2024年11月5日。这一创新将为语音识别技术的发展带来深远影响,为人工智能在语音识别领域的应用开辟新的可能性。
阿里云通义SenseVoice与CosyVoice两款语音基座模型正式开源
近日,阿里云通义宣布正式开源两款前沿的语音基座模型SenseVoice与CosyVoice,这两款模型分别针对语音识别与语音生成领域,以其卓越的性能和广泛的应用潜力见长,其中SenseVoice在语音识别方面的表现尤为突出,其识别效果已超越行业标杆OpenAIWhisper。SenseVoice作为一款专注于高精度多语言语音识别的模型,其独特之处在于其广泛...
中国电信发布星辰超多方言语音识别大模型:智能语音领域的新突破
三、开源与效率值得一提的是,星辰语音大模型是业内首个开源的、基于离散语音表征的语音识别大模型。这一开源举措不仅促进了技术的共享与交流,还通过“从语音到token再到文本”的建模新范式,显著降低了推理时的语音传输比特率,大幅提升了语音识别的效率。四、实际应用与落地目前,星辰超多方言语音识别大模型已在...
一周AIGC丨 国内首个服装丝绸行业大模型发布,Pika上线付费计划
据站长之家1月8日报道,开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。英伟达宣布推出了四个Parakeet模型,这些模型基于RNNTransducer/ConnectionistTemporalClassification解码器,并且具有0.6-1.1亿参数。它...
"讲唔正"的广东话AI:低资源语言是否注定被边缘化?
翻阅OpenAI公开的信息,去年ChatGPT推出的语音模式展现的对话能力,实则由三个主要部分组成:首先由开源的语音识别系统Whisper将口语转为文本——再由ChatGPT文字对话模型生成文字回复——最后由一个文本转语音模型(Text-To-Speech,以下简称TTS)来生成音频,并对发音方式进行微调。