三只羊“录音门”实为AI伪造,背后技术公司扑朔迷离

2024-09-27 20:22:00 - 21世纪经济报道

21世纪经济报道记者肖潇王俊实习生韩佳序北京报道

直播带货公司“三只羊”的风波又起。一段疑似集团创始人卢文庆醉酒后的音频流出,音频提到客服投诉、竞争对手和三位女主播关系,一时引发了大量讨论。

9月26日,安徽合肥市公安局高新分局确认,相关网传音频为AI伪造,在犯罪嫌疑人(男,25岁)的电脑、手机和制作AI音频的网站中发现了伪造相关音视频的证据,并经部、省专业机构检验鉴定。目前犯罪嫌疑人被依法采取刑事强制措施。

27日凌晨,深圳言域科技有限公司发文称,三只羊事件使用的是“Reecho睿声”大模型,由卢文庆30秒的直播片段克隆生成,现在在加强安全管控措施。

三只羊“录音门”实为AI伪造,背后技术公司扑朔迷离

一石再激千层浪。逼真的语气、脏话、安徽口音让许多人不可置信音频为AI生成,而这家似乎“名不经传”的公司则扑朔迷离——去年12月成立,注册资本100万元,面向C端的产品能够瞬时克隆声线,声音市场中已经有刘亦菲、杨幂等角色可以加进“购物车”……

AI声音克隆发展到哪一步了,是不是普通人就能随意完成“以假乱真”?AI内容的标识办法即将出台,这次深度伪造事件又意味着哪些法律挑战?

 “没有哪个产品敢随心所欲克隆人声”

天眼查数据显示,深圳言域科技有限公司在去年12月刚刚成立,注册资本100万元。产品官网显示,商业伙伴已经有Keep、央视网等。

21记者实测了旗下ToC产品“Reecho睿声”,克隆声音的流程非常简单:首先上传一段音频文件,作为训练素材;随后AI自动学习这段音频,生成一个克隆角色;最后就可以输入文本,用克隆角色的声音念出任何内容。 

简单来说,这是一套不用十分钟可以完成个性化定制的文生音模型。如果是“瞬时克隆”,用户只需要上传5~8秒的声音样本;如果是精度更高的“专业克隆”,需要1分钟~60分钟的训练素材。

专业克隆的成本门槛不高,198元就可以定制一个角色,千元出头能定制6个角色。

三只羊“录音门”实为AI伪造,背后技术公司扑朔迷离

但这套技术和产品模式可能要打上一个问号。

AI技术博主数字生命卡兹克在文章中分析,目前的声音克隆技术主要有两种:一种叫TTS(Text-to-speech),即文生音。只需要几十秒的素材训练AI模型,再让大模型念出指定文本。优点是成本低、时间快,而缺点是情绪、停顿、语气都不够逼真。

另一种为SVC,也可以理解为AI变声。区别是并非把文本简单转为音频,而是需要真人先录制一段音频,再用AI替换声线。去年爆红的AI孙燕姿唱歌,使用的便是SVC克隆技术。

一位看到新闻后去试用了睿声产品的AI业内人士告诉21记者,“他们的大模型质量一般,(生成的音频)10秒以内的还能听,10秒以上就不行了。”

 他分析,要达到伪造卢文庆音频的逼真效果,AI无法做到一键生成,但如果用户有心“一段一段生成去硬凑,也是可以做到的。”

长期用该产品配音的用户踯躅说,生成音频的重音、语气并不自然,“原始音频是什么语气,后面(生成的)台词就是什么语气,我都是生成之后用修音软件重新处理”。而睿声的主要吸引力是可以完全模仿音色。

更大的问题或在于此——在这款向所有人免费开放的产品里,用户可以“模仿”任何人的音频文件,并且能公开发布。

睿声产品首页专门有一个“声音市场”板块,21记者在9月27日下午进入市场时,已经看到了杨幂、刘亦菲、丁真等人的声音。尽管生成的音频听起来不够自然,但使用非常方便,只要像加入购物车一样,把克隆声音添加到角色库里即可。

三只羊“录音门”实为AI伪造,背后技术公司扑朔迷离

“其实在国内,基本没有可以随心所欲克隆声音的产品开放(给用户)的。”前述业内人士有些惊讶于这款产品的“野蛮”。

业内更常提起的模范生做法是剪映和豆包。今年年初,剪映和豆包AI分别上线了音色克隆功能,卖点都是几秒内创建自己的克隆声音,但在使用过程中,用户需要点击话筒,实时录制一段自己的声音。

前述业内人士表示,“这样就限定了条件,你只能克隆你自己的声音,没办法随心所欲克隆别人。”而睿声允许用户上传任何已经录制好的音频文件训练AI,无疑埋下了隐患。

目前国内的深声科技、小米、华为、百度、字节跳动等公司,都有布局人声克隆技术,但少有已经成形的产品。像深声科技的声音定制服务,产品面向的也是企业端,而非所有普通用户。 

垦丁律师事务所联合创始人欧阳昆泼分析称,声音克隆可能涉及民事侵权,声音也属于一种人格权益,具有人身专属性。未经授权的情况下使用他人声音可以构成民事侵权。今年4月,北京互联网法院一审就开庭宣判了全国首例AI生成声音人格权侵权案,认定在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音。

平台是否应担责?

问题不仅仅在于声音侵权,而是更广范围内应用的不可控性。

“随着AI技术发展,生成合成技术不仅在逼真程度上日臻成熟,技术工具的可及性及易用性极大提高。当人人均可低成本地制作、传播深度伪造的内容时,现实与虚拟的界限不再显而易见,互联网信息传播的基本逻辑遭到挑战。”欧阳昆泼指出。

DataBridge市场研究分析,在2021年到2028年间,声音克隆的市场规模将达到约4446.08亿美元,并以接近26%的复合年增长率增长。如何将这些深度合成技术关进笼子已经成为全球范围内的课题。

欧阳昆泼向21记者解释称,关于平台的责任认定,目前仍主要以红旗原则和避风港原则为参考。一方面,为了促进技术发展和表达自由,对于平台课加的义务仍应是克制的。

另一方面,也随着平台对社会公众的影响力越来越大,加之AI、算法等的发展,平台对其上内容的监管正变得越来越重要。

中国施行的《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》中均对利用AI技术实施违法犯罪行为进行了规制,旨在要求深度合成服务提供者应当落实信息安全主体责任。

具体来看,平台具有事前预防的义务,《深度合成管理规定》设立了安全评估、算法备案、内容审核等事前预防措施;此外,平台也有事后应对义务——如果深度伪造的谣言没有在生成之前被拦截,则需由服务者设置的用户申诉和公众投诉、举报入口,并通过已经建立的辟谣机制采取及时措施进行辟谣。

深圳言域科技有限公司声称,在收到合肥警方调查取证后,公司启动了内部审核机制。记者在产品的使用文档中看到,如果要用专业克隆功能,现在需要进行支付宝人脸实名认证,但仍然没有约束实名制用户克隆声音的范围。

使用文档的底部,有提示用户——“请勿使用我们的服务克隆或生成任何侵犯版权的内容”“我们生成的所有内容均带有详细日志,自动/人工复审,以及可溯源的隐形音频水印,若发现您违反了相关规则,我们保留终止您的服务并上报公安机关等机构的权利。”但在使用界面,记者没有看到有关提醒。

值得一提的是,21记者也没有在互联网信息服务算法系统上,找到深圳言域科技有限公司的备案信息。

欧阳昆泼表示,睿声公司若没有履行备案义务,对内容审核、安全评估等义务也没有做到位的情况下,是有可能被监管机关追究相关法律责任的。

欧阳昆泼还补充道,对于深度合成技术的标识义务,已有相关法规要求在使用合成内容时进行标识,各个社交平台也已采取了相关措施,会在AI生成的内容旁标注类似于“本内容为AI生成”的内容。然而,在实际操作中,对AI生成内容标识仍存在一定挑战。例如,合成内容经二次传播后,标识就可能被省略或忽视,导致接收方对内容来源产生误解。这会是接下来各个平台需要处理的课题。

今日热搜