AI日报:谷歌推Gemini 1.5 Pro实验版本0801;图像生成开源模型FLUX1...
8、以色列人工智能初创公司aiOla推出超高速开源语音识别模型Whisper-MedusaaiOla推出的Whisper-Medusa语音识别模型在速度上比OpenAI的Whisper提升了50%,并保持了准确性。这一举措将加快语音应用的响应速度,提升效率,降低成本。AiBase提要:??速度提升50%:Whisper-Medusa比OpenAI的Whisper速度快50%??不损准确...
一次曝 9 个大模型,「字节 AI」这一年都在做什么?
豆包·语音识别模型:更高的准确率及灵敏度,更低的语音识别延迟,支持多语种的正确识别;豆包·文生图模型:更精准的文字理解能力,图文匹配更准确,画面效果更优美,擅长对中国文化元素的创作;豆包·Functioncall模型:提供更加准确的功能识别和参数抽取能力,适合复杂工具调用的场景;豆包·向量化模型:聚焦向量检索的使用...
阿里音频生成大模型开源!50种语言快速理解+5种语言语音生成
SenseVoice是一个基础语音理解模型,具备多种语音理解能力,涵盖了自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。该模型旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统。SenseVoice-Small是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并...
当运营商开卷大模型:毫无亮点,没有新意
当“巴适得板”“食咗饭未”遇上大模型,“理解障碍”进一步被突破:近日,中国电信人工智能研究院(TeleAI)正式对外发布星辰超多方言语音识别大模型,这是业内首个支持30种方言自由混说的语音识别大模型,也是目前国内支持最多方言的语音识别大模型,可以同时识别理解粤语、上海话、四川话、温州话等30多种方言。可...
大模型里的国家队,中国电信为何要做方言语音大模型?
国内语音大模型也卷出了新高度。近日,中国电信人工智能研究院(TeleAI)也公布了语音大模型领域的进展,正式对外发布星辰超多方言语音识别大模型。这是业内首个支持30种方言自由混说的语音识别大模型,也是目前国内支持最多方言的语音识别大模型。在大家都在卷语义大模型时,为何电信要在语音大模型上发力,而且还是...
蚂蚁百灵大模型一号位:GPT-4o发布不意外,原生多模态方向已明
徐鹏:在我看来,多模态与原生多模态之间的主要区别在于实际应用时,系统背后是基于多个模型的简单协作,还是由单一模型端到端完成所有任务(www.e993.com)2024年9月17日。以之前GPT-4为例,它可以通过语音识别模型将语音转换为文字,也能通过图像识别模型提取图像内容,然后利用GPT-4的大型语言模型作为中控生成优质的回答。回答完毕后,系统决定是向...
字节跳动发布豆包大模型,日均处理千亿级Tokens
????豆包大模型在服务字节内部的同时,也在与火山引擎的众多企业客户合作共创。谭待认为,企业在不同业务场景中,需要不同特点的模型,从而实现最佳效果和性价比。为此,豆包大模型提供的是一个有多模态能力的模型家族,目前主要包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等九款模型。
换了30多种方言,我们竟然没能考倒中国电信的语音大模型
星辰语音识别大模型也是业内首个开源的基于离散语音表征的语音识别大模型,通过「从语音到token再到文本」的建模新范式,将推理时语音传输比特率降低了数十倍。凭借绝对领先的性能,星辰语音识别大模型此前已经在国际上斩获了多个国际权威赛事冠军。比如,在权威国际语音顶会Interspeech2024离散语音单元建模挑战赛的...
月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进
杨植麟:它(当时)是用来给语音识别做排序的模型。(笑)当你识别完一段语音,有很多结果,拿语言模型看到底哪个概率更大,输出最有可能的结果,应用非常有限。但你发现它是根本问题,因为你在对这个世界概率建模。虽然语言局限,它是世界的投映;但理论上你把tokenspace(所有可能的标记组成的空间)做得更大,就可以构建一...
一周AIGC丨 国内首个服装丝绸行业大模型发布,Pika上线付费计划
英伟达推出AI语音识别模型Parakeet,号称优于Whisper据站长之家1月8日报道,开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。英伟达宣布推出了四个Parakeet模型,这些模型基于RNNTransducer/ConnectionistTempo...