“扩红”运动的图像话语生产与流动——以《红色中华》为中心

2024年7月10日 - 百家号

《红色中华》图像对“扩红”话语的生产主要体现在三个方面：情境接合、符号表征以及文本互文。《红色中华》图像激活了当时中国紧迫的社会情境，通过描述社会现实、与参军竞赛相连接等方式，与“扩红”运动进行接合，共同搭建了“扩红”话语出场的合理性。《红色中华》图像通过对女性、青少年、旗帜等意象进行征用和再造，并...

详情

科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型...

2024年2月23日 - 腾讯新闻

不过,这些已存在的多模态大模型只能将整个图像作为输入和输出的文本,也就是仅仅局限于从整体上理解图像,无法处理区域级推理任务,比如基于多模态对话,定位图片中的某个对象。因此,为了进一步提高视觉理解水平,实现用于区域级推理的多模态大模型,当前的解决方案一般选择利用Pix2seq方法[2],也就是把对象的边界框坐标...

详情

马凌:我们生存的世界正在过度图像化

2024年1月4日 - 百家号

”的确，我们生存的世界日益有着过度图像化的趋势，一是图像速度和总量迅猛增殖；二是个体的自我过度图像化；三是媒体和平台的受众图像档案化；四是全社会的图像焦虑；五是AI带来的深度伪造和图像失真。在2023年译介的《幻象》一书中，美国史学家丹尼尔·布尔斯廷早在1962年就定义了“图像革命”，也就是人类制作、...

详情

通义千问入驻钉钉服务号,提供文生文、文生图、语音交互、图像理解...

2024年1月9日 - 百家号

1月9日钉钉发布会消息，阿里云通义千问大模型入驻钉钉服务号，成为首个通过办公应用开放服务端口的大模型。用户在搜索“通义千问”就可找到对话窗口，通过文字或语音交互，让大模型提供文生文、文生图、图像理解等多模态服务。对于7亿钉钉用户来说，这将是最方便、最轻量的大模型使用端口。钉钉服务号是继网页端...

详情

马斯克发布Grok-1.5V!xAI首款多模态大模型,能看图写代码、算热量

2024年4月13日 - 凤凰科技

xAI首款多模态大模型,能看图写代码、算热量作者|ZeR0编辑|漠影智东西4月13日消息,刚刚,马斯克的大模型创企xAI推出了其首款多模态大模型Grok-1.5V。这是OpenAI的大语言模型劲敌之一。如今,除了文本功能外,Grok现在还可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。

详情

看图猜位置:斯坦福最新 AI 模型 PIGEON 准确率超 90%

2024年1月14日 - IT之家

PIGEON在「照片猜国家」的子任务上实现了91.96%的正确率,40.36%的猜测在距离目标25公里以内,这也是过去五年来第一篇没有军事背景资助的、最先进的图像地理定位相关的论文(www.e993.com)2024年11月1日。GeoGuessr是一个从街景图像中猜测地理位置的游戏,全球拥有5000万玩家,前面提到的rainbolt就是该游戏的忠实粉丝,也是公认的最强...

详情

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程...

2024年1月26日 - 网易

Qwen-VL-Max不仅可以准确识别出图片中文字,还可以将图中同步出来。甚至下面这种写满笔记而且还存在遮盖的扫描版文档,也能识别出来。Qwen-VL碾压同级大模型,AI社区盛赞通义千问在多种复杂视觉任务上的表现着实让人惊艳,背后的技术架构是怎样的?

详情

AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到...

2024年1月14日 - 网易

PIGEON的进步还启发了开发人员创建另一个模型PIGEOTTO,使用Flickr和维基百科的400万张图像进行训练,输入任意图像而非街景全景图,就能定位出图像的位置,功能更加强大。在此类任务的测试中,PIGEOTTO的性能最佳,将中位偏差降低了20%-50%,在城市粒度上的预测超过了之前的SOTA高达7.7个百分点,在国家粒度上超过了38.8个百...

详情

AI看图猜位置,准确率超90%!

2024年1月17日 - 网易

PIGEON在「照片猜国家」的子任务上实现了91.96%的正确率,40.36%的猜测在距离目标25公里以内,这也是过去五年来第一篇没有军事背景资助的、最先进的图像地理定位相关的论文。GeoGuessr是一个从街景图像中猜测地理位置的游戏,全球拥有5000万玩家,前面提到的rainbolt就是该游戏的忠实粉丝,也是公认的最强玩家之一。

详情

华科大团队研发出具备出色的“看图说话”能力的AI“小猴子”

2023年12月11日 - 百家号

白翔介绍，Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有Monkey和GPT-4V能将其准确...

详情

查看更多

看图找图片
看图找一找
看图找图形数学题
看图寻找
看图找答案游戏图片
看图找图案是什么游戏
看图找物品图片及答案
看图xad
看图找图画
看图找题目