中信建投:海内外视频模型密集发布 API打开商业化空间
不同于OpenAI发布Sora时只进行产品演示和模型简要介绍,Meta对外展示了MetaMovieGen的92页技术论文,包括架构、训练细节、测评方法和结果等,延续了Meta在大模型领域较为开放、共享的思路。根据技术论文,MovieGen由两个模型组成,包括300亿参数的视频模型MovieGenVideo和130亿参数的音频模型MovieGenVide,沿用了较多...
奇富科技发展语音识别技术应用于金融场景
奇富科技发展语音识别技术应用于金融场景“百里不同俗,十里不同音”,我国方言种类丰富,导致语音识别技术的准确性和智能化水平受限。特别是在金融业务场景中,市面上的通用语音识别技术在应对方言时常常表现不佳,导致人机交互的准确性和智能性大打折扣,服务效率和质量受损。为此,奇富科技引入全自研Qifusion框架模型,...
MRAM,新兴的黑马
energy-efficientMRAMtechnologyfornon-volatileRAMapplications(适用于非易失性RAM应用的业界最强能效MRAM技术)”论文,描述了基于三星28纳米和14纳米逻辑制程节点的nvRAM产品技术。来源:三星具体而言,增强型磁隧道结(MTJ)的堆叠工艺技术,显著降低了写入错误率(WER)。MTJ也从28纳米节点,缩小到14纳米FinEFT工艺,...
向凌云获奖论文:人工智能技术在新兴产业金融监管体系中创新应用
2024年6月28日研究新兴产业金融方向的旅美经济学家向凌云所著论文《人工智能技术在新兴产业金融监管体系中的创新应用》在《教育与社科辑》期刊(国内统一刊号CN:11-9108/C国际统一刊号ISSN:1007-8088)发表并获得2024年第七期优秀论文一等奖。人工智能技术在新兴产业金融监管体系中的创新应用向凌云首都师范大学资源环境...
免费AI“神器”系列第七弹:华为首个AI图像生成模型论文公布;克隆...
产品功能:VSP-LLM可以通过观察视频中人物的唇部动作,识别和理解说话内容,并将这些内容直接翻译成目标语言文本。同时,利用先进的视觉语音识别技术,结合大语言模型的上下文理解能力,VSP-LLM通过自监督学习,可以智能识别和去除视频中的冗余信息,避免内容重复,提升内容生成速度和准确性。
当数据成为生产资料,论文总结如何用水印技术保护AI训练数据版权
第一篇文章具体聚焦在poison-only后门攻击,防御方尝试去识别和验证一个可疑模型是否是在(受保护的)被攻击的数据集上训练出来的:首先,防御方利用poison-only后门攻击进行数据集水印;然后,防御方进行数据集验证,通过假设检验检查可疑模型是否包含特定的隐藏后门(www.e993.com)2024年10月18日。第二篇文章在第一篇工作的基础上,进一步改进...
零一万物潘欣:Sora 无法让AGI 到来,GPT 才是关键|AGI 技术 50人
由于早期的TensorFlow缺乏模型示例,相关的API文档尚不规范,于是潘欣用了一年时间为TensorFlow构建了一系列关键基础模型,涵盖了语音识别、语言模型、文本摘要、图像分类、对象检测、分割、差分隐私和帧预测等多个领域,打造了TensorFlowGitHub上modelzoo的初始版本。2016年,TensorFlow在开发者社区中爆火。...
奇富科技发布方言技术新进展
本报讯(记者李冰)日前,奇富科技发布方言技术新进展,其智能语音团队论文《Qifusion-Net:基于特征融合的流式/非流式端到端语音识别框架》被全球语音与声学顶级会议INTERSPEECH2024收录。这是继去年《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》论文之后的又一国际认可。
黄仁勋对话Transformer论文的七位作者,都说了啥?
除了在自然语言处理领域取得的成绩,Transformer技术还被广泛应用于语音识别和计算机视觉等多个领域,证明了其在处理各种序列数据上的通用性和有效性。正是这些创新的技术,推动了人工智能领域的快速发展,让我们能够预见到一个与智能机器无缝交流的未来。二、“世界需要比Transformer更好的东西”...
第十八届全国人机语音通讯学术会议|思必驰联合上海交大发表11篇论文
思必驰将基于DFM-2大模型以及声纹认证、情绪识别、图像分析、行为识别等技术,对驾驶员疲劳、分神等危险驾驶行为进行识别、预警,帮助驾驶员开展安全劳动,助力重庆环卫系统加快数智化转型。02十余篇论文荣获发表本次大会上,思必驰联合上海交通大学共计发表了11篇论文,内容涉及长语音识别、语音合成、语音编辑、端到端流...