新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

2024-06-25 19:42:00 - 宁波网

宁网编前语

随着宁波国家级互联网骨干直联点的开通，5G、5G-A的加速推广以及超算中心的加快建设，稳步推进的宁波网络基础设施，正不断优化营商环境，更好服务保障高质量发展。

6月3日起，中国宁波网推出“新基建智‘绘’未来”系列报道，从企业、市民的角度出发，寻找宁波网络基础设施赋能经济社会高质量发展的新故事。

中国宁波网记者殷聪王嘉彬

你能想象吗？在公共视频领域，也存在“盲人摸象”问题。由于摄像头的角度，单个摄像头看到的场景都有自己的局限性。

“我们要做的就是通过大模型，对多个场景跨摄像头的视频进行分析，将每个摄像头‘看’到的局部场景串联起来，反应出‘大象’的全部面貌。”6月25日，在演示“风华·苍鹭”视频场景理解大模型的过程中，宁波大学研究生院副院长钱江波透露出他的雄心壮志：要加快场景应用，早日兑现公共视频数据的价值。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

据钱江波介绍，随着数字媒体的普及，视频已成为市民生活中不可或缺的一部分，被用来记录、传输和展示。因此，对于视频的处理和理解变得越来越重要。虽然深度学习以及神经网络技术的发展，使得视频场景理解取得了一定的进展。但现阶段视频训练数据大多来源于网络视频，多局限于日常拍摄的小场景，数据量以及类型十分有限。针对不同监控场景，视频场景理解大模型缺位明显。

比如，某个摄像头拍到两个人正围着一辆电瓶车互相推搡，你的第一印象可能是一起普通的交通事故；而另一个摄像头拍到两人追逐，你的第一印象可能是打闹。但结合两个摄像头的视频，将信息串联起来就能判断出这可能是一起抢劫事件。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

“单个公共视频的数据虽然有用，但将其由点及面，进行数据的分析，意义更大。”钱江波说，为破解公共视频“盲人摸象”的瓶颈，由郑纬民院士指导、宁波大学钱江波教授等多位老师共同参与研发的“风华·苍鹭”视频场景理解大模型，通过构建视频大数据库，可在多个场景实现跨摄像头的视频分析，解决了视频“盲人摸象”的问题。这也是全球首个基于昇腾AI的视频场景理解大模型。

与国外的视频场景理解大模型不同，国外公共视频数据大多以水平拍摄为主，而国内的公共视频数据以俯拍为主。“因此，建立拥有自主知识产权的视频场景理解大模型显得更为重要。”钱江波说，大模型的发布仅仅是个开始。未来，他们需要大量的视频资源，不断训练大模型，并对其进行持续的迭代与更新。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题