大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解...
RefCOCO+有意排除了RefCOCO中常见的位置介词,倾向于如“只有冰的塑料杯”和“屏幕上的男人”这样短而富含语义的表达。RefCOCOg提供了更详细的标注,例如“带有盘子、披萨、饮料罐和玻璃杯的食物桌”和“带有两把木椅的红白格子桌”。作者在手动评估了RefCOCO、RefCOCO+和RefCOCOg的验证集和测试集的标注错误率,发现...
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
MLVU通过精细的人工标注克服了这些问题。在所有的情节问答任务中,MLVU均使用“具有详细细节的代词”来指代情节中的人物、事件或背景,避免了问题泄露带来的潜在影响,MLLMs需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外,MLVU的PlotQA问题具备丰富的多样性,增强了评测的合理性和可靠性。
苹果推出新型语言模型ReALM:融合文本与界面,打造新一代人机交互体验
无论是基于实体类型的指示(如“播放这个”对应歌曲或电影)、描述性属性的指代(如“时代广场的那个”指向特定地点或商家),还是混合型的指代(如“播放太古里那首”或“去太古里的那个地方”的导航请求)
中科院自动化所、字节跳动提出高性能的指代性分割基准模型
这个任务在学术界叫做指代性物体分割(ReferringImageSegmentation)。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉-语言特征来直接生成最终的分割结果,而没有显式建模被指代物体的位置。为了强调语言描述的指代作用,来自中科院自动化所、字节跳动的研究者将该任务解耦为先定位再分割的方...
...2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准...
1.被指代对象的位置预测。通过位置建模可以显式获取语言所指代的对象;2.对象分割结果的生成。后续的分割网络则可以根据视觉环境信息来得到准确的轮廓。方法本文提出的模型主要包括定位模块和分割模块。该研究提出的方法体系架构图。其中定位模块旨在找到语言表达所指代的视觉区域。首先基于语言描述生成卷积核,然后...
高性能计算与多模态处理的探索之旅:英伟达GH200性能优化与GPT-4V...
鉴于图像上绘制的灵活性,提出一种新的提示方式即“视觉指代提示”,通过编辑输入图像的像素来指定目标(如画视觉指示器或手写场景文字)(www.e993.com)2024年11月24日。不同于传统文本提示,视觉指代提示通过图像像素编辑来完成任务。例如:可以基于画出的对象生成简单描述,同时保持对整体场景的理解,或者将指定对象与场景文本索引关联起来,或者回答贴边或...
创新工场「数据下毒」论文入选NeurIPS 2019,AI安全问题需要引起...
但这时训练出来的深度学习模型在泛化能力上会大幅退化,用这样的模型驱动的机器人在真实场景中会彻底「懵圈」,陷入什么也认不出的尴尬境地。更有甚者,攻击者还可以精心调整「下毒」时所用的噪音数据,使得训练出来的机器人视觉模型「故意认错」某些东西,比如将障碍认成是通路,或将危险场景标记成安全场景等。
阿里人工智能治理与可持续发展的技术方向探索
联合发布全新测试基准平台清华大学、阿里巴巴、瑞莱科技在第三届智源大会上正式对外发布了新一代对抗测试基准平台。该平台的代号是ARES,全称是AdversarialRobustnessEvaluationforSafety,旨在为全球AI安全和对抗的研究者提供客观公正的指标评测服务。在CVPR2021对抗竞赛期间,ARES通过在线接入评测的方式支持了白盒对抗攻击...
自然语言处理全家福:纵览当前NLP中的任务、数据、模型与论文
1G超级标记CCGBank2.分块PennTreebank3.选区解析PennTreebank4.指代消歧CoNLL20125.依存解析PennTreebank6.对话第二对话状态追踪挑战赛7.域适应多领域情感数据集8.语言建模PennTreebankWikiText-29.机器翻译WMT2014EN-DE...