AI读论文新神器:多栏密集文字、中英图文混排文档都能读|旷视
01旷视团队打造了多模态大模型的“点读笔”Fox,可实现对8页文档(中英混合,单栏多栏格式混合)的交互式感知理解。02Fox支持高可控性的细粒度理解,如文字识别、段落翻译和页面内部图片内容描述等。03为此,Fox采用了多词表协同、多页面文档统一打包和精准定位等创新方法。04其中,多视觉词表协同使Fox能更好地理解...
ACL 2024公布7篇最佳论文,华中科技大学本科生一作成果获奖
利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型OracleBoneScriptDecipher(OBSD),该模型利用甲骨文的不可见类别(unseencategories)作为条件输入,以生成对应的现代汉字图像,为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。
超ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评...
b.在评估口语翻译方面侧重:语音识别准确率、翻译准确性、翻译流畅度、口语表达自然度。(4)评审团:专业翻译人员、资深AI爱好者、媒体内容从业者。1第二部分翻译能力10测我们设计了十道评测题目,内容涵盖了经典诗歌、专业资格考试和日常生活等翻译场景。每一道题目都经过精心挑选,代表了特定的翻译难点和应用场景。
优秀博士论文:基于深度学习的自然场景文字检测与识别方法研究
场景文字检测识别是传统OCR在自然图片上的延续和升级,它的应用极其广泛,例如无人超市、智能导盲和无人驾驶等新兴技术等都离不开场景文字识别。相比传统OCR,场景文字的检测和识别面临着巨大的挑战,首先,相比文档图片,场景文字的背景更为复杂;其次,场景文字的字体、颜色和排布相比文档文字复杂得多;最后,传统的OCR系统...
4.18-19直播连连看 | 「热门研究云际会」视觉感知&文字识别
本报告主要介绍我们发表于ECCV2022的一篇Oral论文,该研究系统性地探索了一个文字识别领域中被忽视的却极具挑战性的方向:艺术字识别,并构建了一个全部由艺术字图像组成的WordArt数据集。艺术字是一种人为设计的美化文字,由各种风格的字体结合文字特效,同时融合背景元素而形成,广泛出现在广告、标语、杂志、贺卡、展览中...
一周AI最火论文 | 生成描述性文字的新平台,用语言加强AI在动态...
用于生成动态环境及对应描述性文本的BabyAI++本文主要研究了描述性文字帮助代理实现动态环境泛化的效果(www.e993.com)2024年12月19日。研究人员提出了一个新平台BabyAI++,以生成各种动态环境和对应的描述性文本。研究表明,描述性文本能帮助智能体学习语言基础来实现对有动态变化环境的泛化。
...科学家,首次挑战图片翻转不变性假设,一作拿下 CVPR 最佳论文提名
考虑到大量Instagram图片有配文字,而文字是最明显的视觉手性现象,作者用文字识别器滤除了Instagram中含有文字的图片重新进行了训练,但仍旧在测试集上取得了74%的高精度。值得一提的是这些训练出来的模型具有一定程度的泛化能力,可以不经训练,在其他的互联网图片集(FlickrF100M)上取得高于50%的精度。
在大家热议Vicarious AI那篇Science论文时,我们和这家公司的CTO聊...
作者在论文中提出了一个不同于深度学习的模型——递归皮质网络(RecursiveCorticalNetwork),突破了基于文本的全自动区分计算机和人类的图灵测试CAPTCHA。和主流的深度学习算法相比,VicariousAI的递归皮质网络在场景文字识别中体现了300倍的训练数据使用效率。文本CAPTCHA,也就是验证码,是用来防止机器人恶意...
亚马逊研究新的文字识别技术,没想到先干掉了验证码
不妨回想一下,汽车出入停车场时的车牌识别、金融业务开户时的银行卡识别、身份证识别、甚至是很多商务应用中的名片识别等,其实都是基于OCR技术的。OCR的发展可以追溯到70年代初,在数十年的发展中,OCR的识别速度和识别成功率在不断地提高,应用场景也在不断地拓展。从复杂背景中提取出文字、多种混合字体...
AI论文激增,出现引用10万+的ResNet是好是坏?这研究有结论了
使用NVIDIARiva快速构建企业级ASR语音识别助手NVIDIARiva是一个使用GPU加速,能用于快速部署高性能会话式AI服务的SDK,可用于快速开发语音AI的应用程序。Riva的设计旨在帮助开发者轻松、快速地访问会话AI功能,开箱即用,通过一些简单的命令和API操作就可以快速构建高级别的语音识别服务。该服务可以...