DeepMind联合MIT团队开发Fluid,让自回归模型实现文生图的大规模扩展
该模型在MS-COCO数据集上实现了6.16的零样本FID得分,在GenEval基准测试中的综合得分达到0.69,超越了DALL-E3和StableDiffusion3等多个使用扩散模型的文生图系统。Fluid模型的成功不仅体现在量化指标上,在视觉质量方面也有显著提升。研究人员展示了Fluid模型在各种复杂场景下的生成结果,使用...
AI时代的社交媒体上,如何分辨信息真假?
MSCOCO数据集是最著名的计算机视觉大规模数据集之一。2000年,Serge与JitendraMalik(现加州大学伯克利分校计算机科学系教授,计算机视觉领域著名学者)共同提出了“形状上下文”(ShapeContext)概念,是计算机视觉和对象识别领域应用十分广泛的形状特征描述方法。2004年,Serge被《麻省理工学院技术评论》评为35岁以下的青年科技创...
对话Serge Belongie:送你一颗可证伪性的“子弹”
MSCOCO数据集是最著名的计算机视觉大规模数据集之一。2000年,Serge与JitendraMalik(现加州大学伯克利分校计算机科学系教授,计算机视觉领域著名学者)共同提出了“形状上下文”(ShapeContext)概念,是计算机视觉和对象识别领域应用十分广泛的形状特征描述方法。2004年,Serge被《麻省理工学院技术评论》评为35岁以下的青年科技创...
上海市2024年度“探索者计划”第一批项目申报指南来啦
方向2:先进金属互连材料和工艺研究研究目标:针对金属互连材料钌(Ru)在先进集成电路金属互连工艺中的应用要求,揭示Ru薄膜制备原理和最佳工艺实现方法,研究并制备出基于原子层沉积Ru金属的半大马士革互连工艺结构,实现填充沟槽内径≤50nm,深度≤100nm,台阶覆盖率>95%,Ru薄膜电阻率≤20??Ω×cm,并通过抗电迁移...
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
OK-VQA(OutsideKnowledgeVisualQuestionAnswering)是一个单图像视觉问答数据集,包含5072个问题-答案-图像三元组。它需要外部知识来超越图像进行推理。LoCoVQA生成分布内的长上下文OK-VQA样本,确保内容图像不会出现可能使评估复杂化的概念冲突。实验使用三个指标对样本进行评分:精确匹配(如果模型的响应包含任何真实...
中国科学院自动化研究所ECCV2024:多模态多任务大一统GriffonV1
为构建预训练数据,收集了开源REC数据包括VisualGenome及RefCOCO系列数据集和开源目标检测数据Objects365及MSCOCO,并如图1左侧所示通过ChatGPT构造对应的任务模板(www.e993.com)2024年11月23日。为构建多场景的指令微调数据,在预训练数据的基础上额外囊括了Flickr30KEntities作为1vs.N数据,并基于LVIS构造不存在指代数据,在GPT-4V的帮助下丰富不...
【申报指南】关于发布上海市2024年度“探索者计划”(第一批)项目...
研究目标:基于现有光矩阵计算的特点,研究AI模型在光矩阵计算模拟器的精度提升方法,实现ResNet50,YOLOv3和SegFormer模型在指定光计算模拟器上的精度相对于其在电芯片上的4bit量化模型精度下降≤3%,其中ResNet50指定ImageNet数据集,YOLOv3和SegFormer指定COCO数据集。研究内容:研究基于硬件噪声及偏差的量化感知训练(QAT)...
甲小姐对话Serge Belongie:送你一颗可证伪性的“子弹”|甲子光年
MSCOCO数据集是最著名的计算机视觉大规模数据集之一。2000年,Serge与JitendraMalik(现加州大学伯克利分校计算机科学系教授,计算机视觉领域著名学者)共同提出了“形状上下文”(ShapeContext)概念,是计算机视觉和对象识别领域应用十分广泛的形状特征描述方法。2004年,Serge被《麻省理工学院技术评论》评为35岁以下的青年科技创...
动态| 上交大卢策吾团队开源AlphaPose, 在MSCOCO上稳超Mask-RCNN...
据AI科技评论了解,AlphaPose是第一个在COCO数据集上的mAP超过70(72.3mAP),在MPII数据集上的mAP超过80(82.1mAP)的开源系统。据悉,该系统目前有两个应用:一是视频姿态跟踪(PoseTracking)。为了匹配同一个人在不同帧中的姿态,他们开源了一个高效的线上姿态跟踪器(PoseTracker)——Po...
腾讯AI Lab 斩获 MSCOCO Captions 冠军,领衔图像描述生成技术
据雷锋网了解,MSCOCO(MicrosoftCommonObjectsinContext,常见物体图像识别)数据集(httpcocodataset/)是由微软发布并维护的图像数据集。在这个数据集上,共有物体检测(Detection)、人体关键点检测(Keypoints)、图像分割(Stuff)、图像描述生成(Captions)四个类别的比赛任务。由于这些视觉任务是计算...