让大模型看图比打字管用,NeurIPS 2023新研究提出多模态查询方法...
2023年10月23日 - 澎湃新闻
例如,(1)图1中的细粒度物体(鱼种)检测,往往很难用有限的文本来描述各种细粒度的鱼种,(2)类别歧义(“bat”既可指蝙蝠又可指拍子)。然而,以上的问题均可通过图像示例来解决,相比文本,图像能够提供目标物体更丰富的特征线索,但同时文本又具备强大的泛化性。由此,如何能够有机地结合两种查询方式,成为了一个很自...
详情
例如,(1)图1中的细粒度物体(鱼种)检测,往往很难用有限的文本来描述各种细粒度的鱼种,(2)类别歧义(“bat”既可指蝙蝠又可指拍子)。然而,以上的问题均可通过图像示例来解决,相比文本,图像能够提供目标物体更丰富的特征线索,但同时文本又具备强大的泛化性。由此,如何能够有机地结合两种查询方式,成为了一个很自...