“扩红”运动的图像话语生产与流动——以《红色中华》为中心
《红色中华》图像对“扩红”话语的生产主要体现在三个方面:情境接合、符号表征以及文本互文。《红色中华》图像激活了当时中国紧迫的社会情境,通过描述社会现实、与参军竞赛相连接等方式,与“扩红”运动进行接合,共同搭建了“扩红”话语出场的合理性。《红色中华》图像通过对女性、青少年、旗帜等意象进行征用和再造,并...
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型...
不过,这些已存在的多模态大模型只能将整个图像作为输入和输出的文本,也就是仅仅局限于从整体上理解图像,无法处理区域级推理任务,比如基于多模态对话,定位图片中的某个对象。因此,为了进一步提高视觉理解水平,实现用于区域级推理的多模态大模型,当前的解决方案一般选择利用Pix2seq方法[2],也就是把对象的边界框坐标...
马凌:我们生存的世界正在过度图像化
”的确,我们生存的世界日益有着过度图像化的趋势,一是图像速度和总量迅猛增殖;二是个体的自我过度图像化;三是媒体和平台的受众图像档案化;四是全社会的图像焦虑;五是AI带来的深度伪造和图像失真。在2023年译介的《幻象》一书中,美国史学家丹尼尔·布尔斯廷早在1962年就定义了“图像革命”,也就是人类制作、...
通义千问入驻钉钉服务号,提供文生文、文生图、语音交互、图像理解...
1月9日钉钉发布会消息,阿里云通义千问大模型入驻钉钉服务号,成为首个通过办公应用开放服务端口的大模型。用户在搜索“通义千问”就可找到对话窗口,通过文字或语音交互,让大模型提供文生文、文生图、图像理解等多模态服务。对于7亿钉钉用户来说,这将是最方便、最轻量的大模型使用端口。钉钉服务号是继网页端...
马斯克发布Grok-1.5V!xAI首款多模态大模型,能看图写代码、算热量
xAI首款多模态大模型,能看图写代码、算热量作者|ZeR0编辑|漠影智东西4月13日消息,刚刚,马斯克的大模型创企xAI推出了其首款多模态大模型Grok-1.5V。这是OpenAI的大语言模型劲敌之一。如今,除了文本功能外,Grok现在还可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。
看图猜位置:斯坦福最新 AI 模型 PIGEON 准确率超 90%
PIGEON在「照片猜国家」的子任务上实现了91.96%的正确率,40.36%的猜测在距离目标25公里以内,这也是过去五年来第一篇没有军事背景资助的、最先进的图像地理定位相关的论文(www.e993.com)2024年11月1日。GeoGuessr是一个从街景图像中猜测地理位置的游戏,全球拥有5000万玩家,前面提到的rainbolt就是该游戏的忠实粉丝,也是公认的最强...
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程...
Qwen-VL-Max不仅可以准确识别出图片中文字,还可以将图中同步出来。甚至下面这种写满笔记而且还存在遮盖的扫描版文档,也能识别出来。Qwen-VL碾压同级大模型,AI社区盛赞通义千问在多种复杂视觉任务上的表现着实让人惊艳,背后的技术架构是怎样的?
AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到...
PIGEON的进步还启发了开发人员创建另一个模型PIGEOTTO,使用Flickr和维基百科的400万张图像进行训练,输入任意图像而非街景全景图,就能定位出图像的位置,功能更加强大。在此类任务的测试中,PIGEOTTO的性能最佳,将中位偏差降低了20%-50%,在城市粒度上的预测超过了之前的SOTA高达7.7个百分点,在国家粒度上超过了38.8个百...
AI看图猜位置,准确率超90%!
PIGEON在「照片猜国家」的子任务上实现了91.96%的正确率,40.36%的猜测在距离目标25公里以内,这也是过去五年来第一篇没有军事背景资助的、最先进的图像地理定位相关的论文。GeoGuessr是一个从街景图像中猜测地理位置的游戏,全球拥有5000万玩家,前面提到的rainbolt就是该游戏的忠实粉丝,也是公认的最强玩家之一。
华科大团队研发出具备出色的“看图说话”能力的AI“小猴子”
白翔介绍,Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确...