新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

2024-06-25 19:42:00 - 宁波网

宁网编前语

随着宁波国家级互联网骨干直联点的开通,5G、5G-A的加速推广以及超算中心的加快建设,稳步推进的宁波网络基础设施,正不断优化营商环境,更好服务保障高质量发展。

6月3日起,中国宁波网推出“新基建智‘绘’未来”系列报道,从企业、市民的角度出发,寻找宁波网络基础设施赋能经济社会高质量发展的新故事。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

中国宁波网记者 殷聪 王嘉彬

你能想象吗?在公共视频领域,也存在“盲人摸象”问题。由于摄像头的角度,单个摄像头看到的场景都有自己的局限性。

“我们要做的就是通过大模型,对多个场景跨摄像头的视频进行分析,将每个摄像头‘看’到的局部场景串联起来,反应出‘大象’的全部面貌。”6月25日,在演示“风华·苍鹭”视频场景理解大模型的过程中,宁波大学研究生院副院长钱江波透露出他的雄心壮志:要加快场景应用,早日兑现公共视频数据的价值。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

据钱江波介绍,随着数字媒体的普及,视频已成为市民生活中不可或缺的一部分,被用来记录、传输和展示。因此,对于视频的处理和理解变得越来越重要。虽然深度学习以及神经网络技术的发展,使得视频场景理解取得了一定的进展。但现阶段视频训练数据大多来源于网络视频,多局限于日常拍摄的小场景,数据量以及类型十分有限。针对不同监控场景,视频场景理解大模型缺位明显。

比如,某个摄像头拍到两个人正围着一辆电瓶车互相推搡,你的第一印象可能是一起普通的交通事故;而另一个摄像头拍到两人追逐,你的第一印象可能是打闹。但结合两个摄像头的视频,将信息串联起来就能判断出这可能是一起抢劫事件。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

“单个公共视频的数据虽然有用,但将其由点及面,进行数据的分析,意义更大。”钱江波说,为破解公共视频“盲人摸象”的瓶颈,由郑纬民院士指导、宁波大学钱江波教授等多位老师共同参与研发的“风华·苍鹭”视频场景理解大模型,通过构建视频大数据库,可在多个场景实现跨摄像头的视频分析,解决了视频“盲人摸象”的问题。这也是全球首个基于昇腾AI的视频场景理解大模型。

与国外的视频场景理解大模型不同,国外公共视频数据大多以水平拍摄为主,而国内的公共视频数据以俯拍为主。“因此,建立拥有自主知识产权的视频场景理解大模型显得更为重要。”钱江波说,大模型的发布仅仅是个开始。未来,他们需要大量的视频资源,不断训练大模型,并对其进行持续的迭代与更新。

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

由于视频的数据量巨大,原本学校购买的计算能力已远远满足不了大模型迭代发展的要求。随着宁波人工智能超算中心的上线与扩容,成功补上了宁波城市级大型超算中心缺失的短板。拥有300P的智算算力以及5P超算算力的超算中心,自然成为了宁波大学大模型迭代升级的“最优解”。

“1P算力代表超算中心每秒可进行1000万亿次的浮点运算。”钱江波说,以智算为例,在图像处理领域,1P算力可提供每秒约10万张图片的处理能力,可同时为约500辆汽车提供道路实况分析。

钱江波给记者算了一笔账:同样的数据量,在超算中心内计算只需要花费100个小时,与此前相比提升了百余倍。与超算中心的合作,将加快大模型的迭代速度,不断优化和提升它的性能与稳定性。

“风华·苍鹭”,未来可期。

今日热搜