总理调研这家AI公司!我们与创始人聊了聊|思必驰|高始兴|科大讯飞|...

2024年7月18日 - 网易

当年我和俞凯,我们在留学时,我们住在一个宿舍里,那时的Nuance是全球最大的语音识别公司。俞凯是语音方面的专家,他就觉得,思必驰一定要做一个事情,把Nuance干掉,或者说我们能做Nuance,让世界能听到来自中国的声音,那时候真有情怀,我们两个都是老党员,大学就入党,真是有情怀的,这个要坚持。但是还有一个,就是对管...

详情

清华电子系、火山语音携手推出认知导向的听觉大语言模型SALMONN

2023年8月20日 - 新浪

并使用一个融合器对齐音频和文本模态,SALMONN模型就对音频模态具有了直接感知,不再是“缸中之脑”;与先使用API调用“ToolFormer”,将语音或非语音音频输入转为文字,再将文字输入大语言模型的API路线相比,SALMONN可以直接从物理世界获取知识,并对一些复杂的音频场景涌现出完整的理解能力。

详情

人工智能的演进:从神话到科学|阿兰·图灵|人工智能技术_网易订阅

2023年8月7日 - 网易

比如在计算机视觉领域,深度学习和大模型可以实现高精度的图像分类、目标检测、人脸识别、图像生成、图像风格迁移等任务;在语音识别领域,深度学习和大模型可以实现高效准确的语音转文字、文字转语音、语音合成、语音翻译等任务;在自然语言处理领域,深度学习和大模型可以实现多样化丰富的语言任务,如文本理解、文本生成、问答、...

详情

谷歌提出新型自动语音识别数据增强大法,直接对频谱图“动刀...

2019年4月28日 - 新浪

图中紫色区域为被屏蔽的部分可以看出,通过在时间方向上进行扭曲,外加屏蔽多个连续时间步长(垂直方向屏蔽)和梅尔频率频道(水平方向屏蔽),能有效扩增数据频谱图。词错率降5%这种方法的效果如何?研究人员在实验基础上进行了一系列实验。研究人员限用大型开源语音识别数据集LibriSpeech上进行实验,比对模型生成的文字与目标...

详情

谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人...

2019年8月24日 - 网易

集成的语音识别和说话人分类系统示意图,该系统同时推断「谁,在何时,说了什么」在图形处理单元(GPU)或张量处理单元(TPU)这样的加速器上训练RNN-T并不是一件容易的事,这是因为损失函数的计算需要运行「前向推导-反向传播」算法,该过程涉及到所有可能的输入和输出序列的对齐。最近,该问题在一种对TPU友好的「...

详情

出门问问:正向B端扩土的语音识别新星

2021年11月24日 - 百家号

出品|零壹智库作者|张家成编审|赵金龙目录一、打破垄断，拥抱开源生态二、TOC端：国内受阻，海外市场放量三、ToB端：开拓多种应用场景四、小结&展望随着物联网（IoT）和人工智能物联网（AIoT）的发展，智能语音识别技术逐渐成为人机交互的重要入口之一(www.e993.com)2024年7月26日。根据灼识咨询的数据显示，预计至2024年我国...

详情

干货:科大讯飞最新语音识别系统和框架深度剖析

2016年8月25日 - 雷锋网

图2DNN和RNN示意图考虑到语音信号的长时相关性,一个自然而然的想法是选用具有更强长时建模能力的神经网络模型。于是,循环神经网络(RecurrentNeuralNetwork,RNN)近年来逐渐替代传统的DNN成为主流的语音识别建模方案。如图2,相比前馈型神经网络DNN,循环神经网络在隐层上增加了一个反馈连接,也就是说,RNN隐层当前时...

详情

语音识别准确率行业第一,中英、方言混输百度输入法都没在怕的!

2020年1月9日 - 中国日报

SMLTA技术在离线语音识别上的应用,将百度输入法离线语音识别精度提升到了在线语音识别效果,准确率超过98%,即使突然断网的情况下也能精准“听懂”你。(2019年百度输入法语音技术突破示意图)“天不怕,地不怕,就怕老外说普通话?”很多外国朋友来到中国都会面临“词不达意”的情况。百度输入法2019年初上线...

详情

平安科技罗冬日:如何用RNN实现语音识别?| 分享总结

2017年12月14日 - 百家号

声音波形示意图在开始之前，需要对原始声波进行数据处理，输入数据是提取过声学特征的数据，以帧长25ms、帧移10ms的分帧为例，一秒钟的语音数据大概会有100帧左右的数据。采用MFCC提取特征，默认情况下一帧语音数据会提取13个特征值，那么一秒钟大概会提取100*13个特征值。用矩阵表示是一个100行13列的矩阵。把...

详情

语音识别技术原理是什么讯飞语音识别技术特点介绍【详解】

2010年3月6日 - 太平洋电脑网

下图是在一个相对通用的任务条件下的语音识别系统示意图。语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程...

详情

查看更多

语音识别流程图
语音识别的功能如何实现
语音识别入门教程
语音识别技术百科
语音识别示意图怎么做的
语音识别原理图
语音识别技术原理详解
语音识别技术图片
语音识别的步骤有哪些
语音识别主要是什么方法