以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

2024年8月7日 - 站长之家

以色列人工智能公司aiOla近日在语音识别技术领域取得重大突破,推出了名为WhisperMedusa的开源语音识别模型。这款新模型的处理速度比OpenAI的Whisper模型快50%,引起了业界广泛关注。WhisperMedusa的核心创新在于其改进的架构设计。aiOla公司对Whisper的原有架构进行了修改,引入了多头注意力机制。这一机制...

详情

阿里开源视频自动化剪辑工具FunClip 支持中文语音识别

2024年5月14日 - 站长之家

站长之家(ChinaZ)5月13日消息:阿里巴巴通义实验室最近开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音内容裁剪视频,大大提高了视频编辑的效率。项目地址:httpsgithub/alibaba-damo-academy/FunClip在线演示:https:/...

详情

阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有...

2024年7月8日 - 网易

品玩7月8日讯,据阿里通义实验室消息,音频生成大模型项目FunAudioLLM现已开源。该项目由两个核心模型SenseVoice和CosyVoice组成。CosyVoice专注于自然语音生成,具备多语言支持、音色和情感控制功能,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行方面表现出色。它通过15万小时数据训练,支持中英日粤韩...

详情

阿里音频生成大模型开源!50种语言快速理解+5种语言语音生成

2024年7月7日 - 新浪

最新发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言识别,效果优于Whisper模型,中文与粤语提升50%以上。且情感识别能力强,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测,多方面测试拿...

详情

阿里云开源两款基座模型,覆盖语音理解、生成

2024年7月9日 - 网易

阿里云开源两款基座模型,覆盖语音理解、生成日前,阿里云通义实验室方面发布并开源了语音大模型项目FunAudioLLM,旨在深化人类与大型语言模型(LLMs)之间的自然语音交互体验。据了解,这一框架的核心是SenseVoice和CosyVoice两个创新模型。其中,CosyVoice是一款基于语音量化编码的语音生成大模型,采用了总共超15万小时的数据...

详情

对话Kaldi之父、小米首席语音科学家Daniel Povey:开源环境比金钱...

2024年4月23日 - 新浪

本期主角DanielPovey,著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为“Kaldi之父”,凭借在语音识别和声学建模方面的杰出贡献入选IEEEFellow(www.e993.com)2024年10月17日。目前,这位语音识别技术大牛正作为小米集团首席语音识别科学家,带领团队开发新一代Kaldi,他认为“开源环境比金钱和荣誉更吸引我”。

详情

阿里发布开源语音交互模型 FunAudioLLM :各种语音黑科技一应俱全

2024年7月8日 - 网易

阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高,FunAudioLLM是一个旨在增强人与大语言模型(LLMs)之间自然语音交互的框架。其核心包括两个创新模型:SenseVoice和CosyVoiceSenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言...

详情

值得珍藏!6个开源的语音识别工具,比自己听还准确!

2023年1月16日 - 太平洋电脑网

我自己也用过一些开源的语音识别,不过或多或少都有一些小bug,最后还是弃用了。这里给大家分享一下我一直在用的几个语音识别工具,都是比较好用的类型,可以收藏起来备用。一、手机端1、笔记有些手机内置的笔记/便签/备忘录工具,为了方便速记,就支持语音识别的功能。

详情

出门问问发布语音识别开源框架WeNet 半年势破Github 1000星

2021年8月17日 - 百家号

目前，短短6个月的时间里，WeNet已在世界最大的代码托管平台Github上获得超过1000个star，成为当前最流行的产品级端到端语音识别框架。WeNet1.0正式发布从横空出世到迅速流行2020年10月，WeNet项目在出门问问内部启动，经过3个月的内部开发于2021年2月初在Github发布了第一个开源版本。随后WeNet快速...

详情

直接开源阿里公布下一代“杀手锏”语音识别模型

2022年12月23日 - 亿邦动力

直接开源阿里公布下一代“杀手锏”语音识别模型12月23日消息,阿里巴巴达摩院发布新一代语音识别模型Paraformer,该模型为业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。目前,该模型于魔搭平台面向全社会开源,适用语音输入法、智能...

详情

查看更多

语音识别sdk开源
语音识别开源项目是什么
语音识别软件开发
语音识别开源项目有哪些
语音识别开发平台
语音识别开源工具
语音识别开发包
语音识别开源项目怎么做
语音识别源码
语音识别开发