一篇10个月前的论文,揭秘字节视频生成模型PixelDance的变化
按照之前的工作,我们随机为每个示例选择一个提示词,共生成2990个视频进行评估,并在MSR-VTT数据集上报告Fréchet视频距离(FVD)和CLIP相似性(CLIPSIM)。对于UCF-101数据集,我们为每个类别构建描述性文本提示,并生成大约10K个视频,按照之前的工作,报告广泛使用的Inception分数(IS)、FréchetInceptio...
「重磅」2024国内主流AI 大模型架构及应用场景深度分析
当前,混元AI大模型完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业与领域任务模型,先后在MSR-VTT、MSVD等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。目前,HunYuanNLP1T大模型已在腾讯多个核心业务场景落地,并带来了显著的效果提升。近日腾讯正式发布全新的AI智能...
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧...
虽然MovieLLM并没有特别地去构造短视频数据进行训练,但通过训练,仍然观察到了在各类短视频基准上的性能提升,结果如下:在MSVD-QA与MSRVTT-QA这两个测试数据集上相较于baseline模型,有显著提升。在基于视频生成的性能基准上,在五个测评方面都获得了性能提升。在长视频理解方面,通过MovieLLM的训练,模...
CV最新论文|2月27日 arXiv更新论文合集
为了训练这个首个开源开放式视觉质量比较器,我们从两个来源收集了co-instruction-562k数据集:(a)lmm合并的单一图像质量描述,(b)GPT-4V“教师”对未标记数据的响应。此外,为了更好地评估这种设置,我们提出了MICBench,这是lmm多图像比较的第一个基准。我们证明,在现有的相关基准测试和拟议的MICBench上...
软件漏洞检测场景中的深度学习模型实证研究
然而,在本论文所列举的研究问题分析中,作者仅使用了上述模型中的9个而排除了VulDeeLocator和SeSyVR两种模型,原因是它们不容易针对Devign和MSR数据集进行优化。通过对深度学习漏洞检测模型进行实证研究,作者详细分析了六个研究问题,并在以下方面取得收获:对深度学习漏洞检测模型进行了全面研究。
HanLP vs LTP 分词功能测试
可以得到HanLP在MSR数据集上的测试结果:===TOTALTRUEWORDSRECALL:0.870===TOTALTESTWORDSPRECISION:0.848===FMEASURE:0.859SIGHan2005的PKU测试集java-cpbuild/libs/test-hanlp-ltp-1.0-SNAPSHOT.jarcom.zongwu33.test.TestForSIGHan2005../NLP/icwb2-data/testing/pku_test.utf...
ICCV三个Strong Accept,UCSB等提出首个大规模视频语言数据集
创建了新型大规模、高质量多语视频描述数据集,有利于视频语言研究领域的发展;对MSR-VTT、VATEX英语语料库、VATEX中文语料库进行了深入对比。提出了多语视频描述任务,并使用紧凑的统一模型验证了其在生成中英文视频描述时的效率和效果。首次提出视频辅助的机器翻译任务,并验证了使用时空视频语境作为额外信息对机器...
微软删除最大的公开人脸识别数据集,只因员工离职?!
而这个数据集最初是用来服务比赛的。MSRIRC是世界上最高水平的图像识别赛事之一,MSCeleb1M数据集最初就是这个赛事所用。MSCeleb1M常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可C.C协议」,来抓取和获得这些图像的。根据协议,可以将...
微软研究院发布开放数据项目,公开 15 类内部研究数据集
直接在microsoftopendata上将数据集复制到基于Azure的Linux虚拟机上数据集的分类如下图所示:其中开发的数据集包括微软机器阅读理解(MSMARCO),微软研究院社交媒体对话语料库,SigmaDolphin等等。大家可以访问httpsmsropendata/来查询、下载各类数据。via:微软亚洲研究院,Microsoftblog...
语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单
在两个经典数据集MSR-VTT和MSVD上进行的零样本视频-文本检索实验结果如表3所示:该研究还将本文模型与SOTA多模态预训练模型OpenCLIP、ImageBind在多模态理解任务上进行了比较,结果如表4所示:表5比较了在Clotho数据集和Audiocaps数据集上的零样本文本-音频检索性能:...