文生短视频大赛火热进行 “数字朋友”正在“漫游沈阳”

2024-07-04 05:50:22 - 媒体滚动

转自：沈阳晚报

随着AI技术的不断升级，虚拟数字人应运而生，它是基于计算机图形（CG）技术与人工智能技术创造出的与人类形象接近的数字化虚拟形象，具有人类的外貌或者行为模式，但是它并不是现实世界中的任何一个人的形象，它是独立运行的，也是独立存在的。数字人的系统一般由人物形象、语音生成、动画生成、音视频合成显示组成，如果是拥有交互功能的数字人，还需要拥有交互模块。

在2024“AI漫游沈阳”文生短视频大赛中，三个篇章“AI漫游沈阳·明日世界”“AI漫游沈阳·文化宝藏”“AI漫游沈阳·一眼千年”的征集内容，都可以通过数字人的视角来呈现，通过设计工作流和prompt，让数字人成为文生视频的“主角”。在本次大赛征集上来的作品中，我们收到了非常优秀的“数字人漫游沈阳”视频。通过采访作者团队，我们了解到：在沈阳，“数字人”已经开始走进日常工作与生活，成为我们的X-friend。

文生视频里的AI数字人主角

开始炫技

目前市场上的数字人在广义上有2D、2.5D、3D等，根据需求不同，可以设计成卡通风格或写实风格等。智能驱动型数字人是通过AI技术训练完成，可通过文生驱动生成语音和动画；真人驱动型数字人是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上。数字人可以出演影视剧，做数字替身，为商业大片拍摄人类无法完成的动作，可以作为主持人、主播，播放新闻或直播带货，可以在服务大厅做接待员，回答一些访客的问题，也可以做虚拟导游、虚拟讲解员等，在博物馆、科技馆服务。

在2024“AI漫游沈阳”文生短视频大赛的优秀投稿作品里，我们“结识”了专业的数字人文旅推荐官翟小玮，她带着我们穿越到了明日沈阳，让我们见到了炫酷的电视塔、科技感十足的口袋公园以及充满创造力的未来实验室，翟小玮表情自然，语调平缓，充满亲和力，通过她的介绍，我们开始对“沈阳明日世界”充满幻想。

在沈阳

大二学生的AI数字人项目正在落地

东北大学软件学院软件工程专业大二学生黄宇航投稿“AI漫游沈阳·一眼千年”篇章，他设计了一个可以进行时空穿越的硅基生命，从AI视角漫游沈阳，穿越过去，冲向遥远的未来……黄宇航的作品使用comfy制作，自主设计的工作流和设计好的prompt生成出分镜静帧画面，再通过分镜静帧画面生成 AI 视频效果。

据黄宇航介绍，这个一分三十秒的视频从构思到设计大约需要10个小时。黄宇航老家北京，来到东北大学读书的第一年，他就发现了学院拥有非常完善、高端的科研平台与专业的科研团队，从大一开始，黄宇航开始在实验室钻研AI技术。2024年1月，他组建起X-friend团队开始研发数字人。“我感觉数字人是AI的风口，学校给我们提供了强大的算力支持，让我更加有信心进入市场走向商业化道路，我觉得我们团队的产品是拥有竞争力的，我想做一个创业者，与更多高校和企业合作。”目前黄宇航的团队已经与大东区合作，为大东区人力资源和社会保障局的工作人员生成了一系列数字人。近日，黄宇航团队研发的2.5D数字人已经通过了视频号真人认证，他带领的团队成为在沈阳X-Land青年科创港的落地企业，并与上海魔珐科技有限公司达成北方地区战略合作协议。

数字人参与文生短视频大赛的思路

2024“AI漫游沈阳”文生短视频大赛围绕人工智能在“文生图片”“文生视频”技术中的应用，大赛的三个篇章“AI漫游沈阳·明日世界”“AI漫游沈阳·文化宝藏”“AI漫游沈阳·一眼千年”都可以从数字人的视角来诠释。通过数字人去幻想沈阳的明日世界，请数字人去挖掘沈阳的文化宝藏，让数字人穿越沈阳的千年时光……文生视频可以通过使用AI软件进行直接生成，也可以通过AI生成图片后再进行拼接成视频，只要设计好工作流，输入合理prompt，你心目中的“AI漫游沈阳”画面即可变为现实。

2024“AI漫游沈阳”文生短视频大赛持续征稿中，欢迎广大市民、企业、高校学子踊跃投稿！

名词解释

数字人

数字人（Digital Human / Meta Human），是运用数字技术创造出来的、与人类形象接近的数字化人物形象。狭义的数字人是信息科学与生命科学融合的产物，是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。其研究过程包括四个交叉重叠的发展阶段，“可视人”“物理人”“生理人”“智能人”，最终建立多学科和多层次的数字模型并达到对人体从微观到宏观的精确模拟。广义的数字人是指数字技术在人体解剖、物理、生理及智能各个层次、各个阶段的渗透。

数字人如何生成

一个“数字人”诞生大约需要历经三个步骤。

第一步是“人像视频拍摄”。真人主播需要在录影棚内采集形象外貌、声音等数据。

第二步是形象声音模拟训练。对音视频预处理、自动化数据标注、3D人脸重建、口唇驱动训练等。

第三步是形象应用训练。数字人此时可投放给用户，应用在不同场景进行测试与训练。

沈阳晚报、沈报全媒体记者张欣