大模型驱动下的省级党媒平台重塑

2024-07-09 12:01:03 - 媒体滚动

转自:上观新闻

作者:李钢宋耀

大模型驱动下的省级党媒平台重塑

导读

大模型在内容生产领域的强大技术潜能,与媒体深度融合目标的高度契合,引得各媒体躬身入局,全力打造传媒大模型,让其成为媒体生产力变革的基础设施。

本期推出“主流媒体平台化建设”系列专题研讨之五,探讨传媒大模型如何炼化成编辑记者深耕内容生产与媒体运营的铠甲。

首篇关注大众报业集团研发的大众党媒大模型及其推动的党媒平台融合实践。

从2023年3月的GPT-4到2024年2月的文生视频大模型Sora,生成式人工智能领域风起云涌。国内科技巨头也纷纷加码大模型技术与应用研发,“百模大战”可谓激战正酣。传媒业因核心业务——内容生产和信息传播恰是大模型技术最擅长的领域,而成为受此影响最大的行业之一。

多年来,大众报业集团始终高度重视先进技术在媒体融合发展中的支撑作用。旗下专业技术团队不断加大对相关传媒技术的自研力度,紧盯互联网前沿技术在传媒领域的开发应用,搭建了山东省新型智慧媒体重点实验室、5G融媒体实验室等技术研发创新平台。依托自有技术力量,以行业需求为导向,以主流价值为核心,以垂直应用为特色,打造了自主安全可控的大众党媒大模型。该大模型顺利通过了国家互联网信息办公室深度合成服务算法备案。

以大众党媒大模型为技术底座,融合大众报业集团内“报、网、端、微”等资源并向社会开放内容生产,共建共用共享的集团统一旗舰客户端——“大众”新媒体大平台于2024年2月2日正式上线。这一平台采用AI原生思维和大模型技术,对内容生产、智能传播、交互方式、营销模式等方面进行了重塑,成为一个高度一体化、智慧化、个性化、生态化的新媒体平台。“共建共享”“原生智能”“自主可控”是其鲜明的特色。

本文以“大众”新媒体大平台建设为例,深入探讨党媒垂直大模型的建设路径,以及在大模型驱动下党媒平台在生产机制智慧化、传播范式极致化、交互模态多样化、营销模式链路化等方面的重塑。

党媒大模型的路径选择与产品特点

通用大模型能力虽然强大,却存在着行业垂直应用度不够、数据安全可控性不足、部署运营成本过高等局限性。在这种背景下,媒体机构尤其是区域性媒体机构,要做垂直大模型的研发和应用,就必须从自身实际出发,选择符合业务需求和应用场景的发展路径。

大模型驱动下的省级党媒平台重塑

大众党媒大模型,从大众报业集团实际出发,以业务需求为导向,选择在开源大模型基础上进行自主研发打造。它的底层是由多个不同的开源大模型融合而成,每个大模型既负责提供其擅长的垂类能力,又互相交叉训练、左右博弈,形成对抗网络,以减少AI幻觉,生成最优内容。这样就可以充分利用开源大模型不需要进行海量预训练语料的收集与清洗、不需要自建庞大预训练计算集群的优势,得以以较低门槛定制专属大模型。

大众党媒大模型以主流价值观为引领,通过海量新闻行业大数据训练,加私域小数据微调,具有跨模态内容理解、多模态内容生成、私域数据解析、多轮人机对话等功能。模型先后荣获2023年全国媒体融合技术应用创新案例、2023年中国经济媒体应用创新典型案例等奖项,走出了一条符合党媒业务需求的传媒垂直大模型建设之路。

(一)党媒算法是党媒大模型的坚实底色

随着大数据和机器学习技术的发展,算法推荐逐渐成为互联网平台的核心功能之一,其在提高信息匹配度、提升传播效率等方面发挥着重大作用。但伴随而来的也有一些负面效应,如过滤气泡(FilterBubbles)、回声室效应(EchoChambers)、假新闻扩散等问题,尤其是为收割“注意力经济”而对主流价值的侵蚀,一定程度上引发劣币驱逐良币现象,影响了信息生态的健康与和谐。

为扭转这一状况,2021年,国家互联网信息办公室联合多部门发布《互联网信息服务算法推荐管理规定》,要求算法推荐服务提供者坚持主流价值导向,避免算法歧视、“大数据杀熟”、诱导沉迷等乱象扰乱正常传播秩序、市场秩序和社会秩序。大众报业集团作为主流媒体,不懈践行“党的立场,群众的报纸”办报宗旨,始终坚持把“弘扬主旋律、传播正能量”理念贯彻到内容生产、技术研发各个环节,坚持用主流价值观驾驭算法,打造了独具特色的党媒算法。2023年,“大众日报客户端检索算法”顺利通过国家互联网信息办公室互联网信息服务算法备案,是较早通过备案的党媒集团自研算法之一。当然,党媒算法并不是排斥算法逻辑,而是努力为算法赋予党媒的主流价值观,构建主流价值引领下的新媒体生态。这正是党媒大模型的最坚实底色。

(二)媒资数据是党媒大模型的突出特色

算法、数据、算力被认为是推动大模型快速发展的三大核心要素。如果将大模型比作一台发动机的话,那算法就相当于机器结构,算力相当于发动机的排量,数据就相当于油料。数据的数量、质量、类型等方面可以说直接决定了大模型的智慧化程度。

大众党媒大模型在开发之初,就统筹考虑数据湖与大模型的相互融合、互为支撑的问题。由于大模型训练和接收的数据并不是传统的文本,而是向量化的文本,为了让数据湖中的稿件、图片、视频等数据成为大模型学习和训练的语料,大众数据湖底层存储系统直接采用向量数据库,所有数据均以向量形式存储入库。同时,依托大模型技术,大众数据湖中的稿件、图片、音视频等数据也无需通过人工或AI打标签,即可直接实现智能化管理与资源共享。大众党媒大模型精调训练的核心数据就来自大众数据湖中1700万条的优质稿件、5000万条的图片、音视频等数据,以及90万条人工标注数据,训练语料总体规模达到1.2万亿Token。

目前,大众数据湖是“大众”新媒体大平台所有数据的集中存储空间,具备海量异构数据的存储能力和多引擎的数据计算分析能力。与传统数据仓不同的是,数据湖可容纳任意规模的结构化和非结构化数据,可直接对原始数据进行存储,且无需做任何预处理即可直接装载给下游数据分析和数据挖掘使用。这是大众党媒大模型最突出的特色。

(三)安全可控是党媒大模型的鲜明亮色

如果模型的训练数据包含偏见或错误信息,那模型的预测和决策也可能反映出这些偏见。因此,从国家层面讲,开发建设自主安全可控的大模型是维护意识形态安全的必然要求。对行业和机构而言,安全可控也是大模型建设的内在诉求。

大众党媒大模型在进行语料训练时即进行了模型的安全评估,其中,人工抽检训练语料1.2万条,合格率为98.6%;人工抽检生成内容8000条,合格率为97.8%。此外,在个人信息收集、投诉处理、AI标识、非法内容拦截等方面,大众党媒大模型完全符合国家相关部门制定的《生成式人工智能服务管理暂行办法》要求,顺利通过了国家互联网信息办公室深度合成服务算法备案。

大模型驱动下的省级党媒平台重塑

在人机交互方面,随着大模型的出现,AI机器人从1.0检索时代进入了2.0生成时代。基于生成式人工智能的机器人能更好地理解用户真实意图,并驾驭整个平台上的内容,支持以文字或自然语言的方式,与用户进行顺畅、自然的多轮对话。这类AI机器人的优点是更智能、更懂用户,缺点则是回答的内容不受控、不稳定,甚至存在一定的安全风险。

为了规避安全风险,大众党媒大模型采取了两项关键措施:一是限定上下文窗口,仅以用户阅读的当前新闻内容及其相关新闻作为上下文Token,从源头上为AI机器人的训练语料限定范围,清除毒草杂音,并确保平台内部敏感数据不出域;二是建立拒答机制,一旦AI机器人生成的内容涉及敏感词或违规言论,就会自动触发拒答机制。另外,大众党媒大模型还可以进行私有化部署输出。这些决定了大众党媒大模型有全方位的安全可控保障。

大模型驱动下党媒平台的多维重塑

大模型带来的技术变革,在某种程度上来说属于一种颠覆性革新,正如百度创始人李彦宏所说“每个产品都值得用大模型技术重做一遍”。传媒业因其内容生产、信息传播的核心业务以及媒体融合发展新阶段的战略目标与大模型的技术潜能高度契合,而成为与大模型发展最密切相关的行业之一。

上线于2024年2月2日的“大众”新媒体大平台正是在这样的背景下诞生的。其出生不早,却恰好赶上了技术升级换代的大模型时代。在媒体融合上升为国家战略十年之际,大众报业集团融合集团报网端等各类资源,扎实推进媒体深度融合进入新阶段,按照全新理念,利用最新技术自主打造了集团统一的共建共用共享的旗舰新媒体大平台。

“大众”新媒体大平台从底层数据湖到中层智媒大脑,再到上层客户端,没有选择在集团之前已有的任何一家媒体技术平台上进行升级改良,而是直接采用AI原生思维和大模型技术全新自主研发打造。技术自研比例超98%,关键核心技术实现了完全自主可控。目前,大众党媒大模型已全面应用于大众新闻客户端、大众智媒大脑、大众数据湖等业务版块,成为“大众”新媒体大平台名副其实的“智力”中枢,实现了对生产机制、传播范式、交互模态、营销模式等的多维重塑。

(一)生产机制:从MGC到AIGC内容生产的智慧化重塑

作为“大众”新媒体大平台内容一体化指挥中心、生产中心、传播中心,大众智媒大脑以大模型技术为支撑,建立了线索收集、舆情研判、报题选题、采写编辑、审核校对、一键统发、数据反馈、考评督导等一套完整的内容生产体系,将AI技术深融于内容生产各个环节,全面重塑了平台的内容生产机制。

移动互联网时代,用户、社会机构等力量加入到平台内容生产中,出现了UGC(用户生产)、PUGC(专职专业生产)、GGC(政府官方生产),以及技术参与的MGC(机器生产内容)、AIGC(生成式人工智能)。但这时的AIGC还是以人为主导,技术仅作为人工在信息储量、计算速度和精准程度上的补充与辅助。大模型的到来将内容生产中的人工智能技术从辅助位置推向了主导位置。例如,依托大众党媒大模型,系统每天可自动生产天气、股市、油价、交通等领域的稿件,并在客户端AIGC频道发布。以油价为例,只要国际原油价格波动达到设定范围,大模型就会被自动唤起,以当前数据为基础自动写稿、配图、审核、发布,全程无需人工参与。

此外,在大众党媒大模型的驱动下,通过领先的NLP(自然语言处理)、OCR(光学字符识别)、人脸识别等技术自主打造的大众多模态内容风控系统,可准确识别图文、音视频、直播等内容中的涉政表述、敏感信息、违规表述及其各种变体,覆盖涉政差错、错别字、标点错误等30多个校审维度,有效提升了平台智慧化审校效率。系统通过工信部旗下中国信通院的校审性能专业评测,并获5星级最高认证。

(二)传播范式:从个性化推荐到点对点交互的极致化重塑

算法推荐的出现,改变了过去大众传播时代的信息传播范式,使内容分发呈现出个性化特点,甚至可以说在一定程度上实现了“千人千面”的个性化定制,但囿于传统算法框架的局限性,用户只能被动接受平台价值驯化的算法驱动的信息流。大模型技术的应用一定程度上重构了信息的传播范式,逐渐转为追求极致化的个体适应性,构建精细化、个性化的“点对点互动”传播模式。用户在与大模型的连续交互中不断细化需求、深化理解,使其不断优化回答内容。这种“一问一答”的循环过程实质上构成了一个实时的新闻生产和精准传播闭环,极大提升了传播效率和用户体验。

大众党媒大模型不仅具有多轮对话功能,还能实时根据用户行为生产更符合用户需求的内容。同时,在大模型驱动下,平台的内容分发方式不断优化。通过一键统发功能,用户在大众智媒大脑上创作的优质内容可以一键自动分发到头条号、百家号、企鹅号、网易号等12个外部平台,进行全网立体化传播。

为掌握稿件在全网的传播力情况,在大模型驱动下,利用大数据、人工智能等技术自研了一套传播数据智能反馈系统,用来对稿件在各个平台上的阅读量、跟帖量、点赞量等传播数据进行实时监控,并定时将外部平台上的传播数据和用户评论抓回到大众智媒大脑。此外,该系统还能对稿件上微博热搜、头条热榜、央媒首屏等情况进行实时监控,每天自动汇总数据,并生成传播力报表,从而对平台的传播范式进行全方位重构。

(三)交互模态:从图文交互到虚拟现实体验的多样化重塑

随着技术的进步,人机交互方式也在不断演进迭代。从最早命令行时代的“指令输入”到PC互联网时代的“鼠标点击”、移动互联网时代的“手指触控”,再到大模型时代的“语音对话”,人机交互越来越自然、越来越顺畅、越来越无感。作为“大众”新媒体大平台的核心载体,大众新闻客户端在设计之初就坚持“AI立端”,用大模型技术对人机交互模式进行了全新重塑。

大众党媒大模型发挥其安全可控优势,全新打造了智能语音搜索、智能语音交互等功能。用户可以用语音、文字、图片等方式与大模型交互,快捷匹配自己所需的信息。同时,利用大模型微调合成了一组大众专属音色矩阵,用户可选择不同AI音色播报资讯、语音交互。合成的语音不仅能模拟人类说话习惯,还能根据上下文内容模拟人类的停顿感和情绪,带给用户沉浸式体验。

大模型驱动下的省级党媒平台重塑

“大众”新媒体大平台元宇宙

更为重要的革新,是在大模型技术的驱动下,全新打造的“壹点天成”全类型数字人平台和“壹点天元”元宇宙活动平台可以为用户提供虚拟仿真人交互、虚拟现实体验等更多沉浸式交互方式。在大模型出现之前,数字人已普遍存在,如虚拟主持人、虚拟主播等,但传统数字人存在无法满足情感需求等不足,而大模型有助于解决这些问题。“壹点天成”是在大众党媒大模型驱动下的全类型数字人平台,能为新闻传播、电商直播、品牌代言、活动运营、数字IP塑造等输出全链路的解决方案。

作为复杂技术集合体的元宇宙平台,更可以让用户利用数字分身打破传统限制,潜入新闻现场,为用户提供多感官协同的沉浸式新闻环境。例如,2024年春节期间,在“壹点天元”元宇宙活动平台上,依托“端上春晚”首个国风元宇宙互动场景,加上虚拟主持人,用户可以轻松实现跨域交互的沉浸式体验。

(四)营销模式:从传统品效模式到智能共创全链路化重塑

大模型以其强大的“感知”和多模态生成能力,势必将对媒体的传统营销模式带来颠覆性变革。例如,大模型通过对用户行为数据的分析可以生成更具针对性的广告创意,提高广告的转化率和效果;大模型可以通过自然语言处理技术,对广告文案进行优化,从而提高广告的品质和吸引力。

大众党媒大模型驱动下的大众智媒大脑除具有生成热点选题、采访提纲、视频脚本等内容生产能力外,还具备营销软文、策划方案、工作总结等营销内容生产能力,同时支持对图片、设计等进行一键去水印、一键去色/上色、画质增强、智能裁剪、智能抠图等快捷操作,极大提升了营销内容的生产效率和生产质量。

同时,借助大模型技术可以让消费者参与到营销内容的共创中来,这不仅可以解决传统品牌单向灌输式传播营销方式无法有效吸引消费者的问题,还可以加深消费者对品牌的印象,激发其对品牌的归属感和忠诚度。这种智能化的互动共创模式,可以使用户在深度参与的过程中与品牌建立更为紧密的情感联结,从而为品牌资产的增值与共享开辟新的路径。

大模型驱动下的省级党媒平台重塑

齐鲁晚报·齐鲁壹点“圆梦礼包”

鹊桥座·壹点动心数字交友空间

此外,基于上述大模型驱动下的元宇宙平台、数字人平台,还可以使营销活动实现跨模态、跨终端场景转化,使营销模式实现多方位重塑。大众报业集团旗下齐鲁晚报·齐鲁壹点依托线下齐鲁国际车展打造的数字车展、依托山东高考招生咨询会打造的云高招、依托线下千佛山相亲大会打造的数字交友空间等都是在大模型技术驱动下实现的跨模态营销案例,均实现了不错的经济效益和社会效益。

党媒大模型面临的挑战与发展前景

尽管大模型应用时代的曙光已经到来,但我们需要清醒地看到目前国内大模型研究发展存在的差距。无论是技术层面,还是应用层面以及商业层面,国内大模型与国外大模型相比都存在较大差距。尤其是随着模型参数的不断增大,进入大模型的门槛也在不断提高。在训练数据集方面,中文相关语料更是严重不足。

同时,我们还要清醒地看到大模型可能带来的数据安全、版权纠纷、虚假新闻、价值观冲突以及人类知识污染等问题,避免给自身带来“声誉风险”与负面舆情。这些都是党媒大模型发展过程中不可回避的挑战。

作为省级党媒,必须兼顾勇气与责任,积极拥抱新技术,推进深刻变革,抢先探索大模型在传媒业的落地应用,让技术的先发优势成为行业竞争壁垒,让技术优势转化为内容和经营优势,全面提升新闻舆论传播力、引导力、影响力、公信力,切实增强自身的市场竞争力。未来,大众党媒大模型将紧盯最新技术,不断迭代升级,拓展更多创新性应用场景,赋能更多媒体和用户,助推内容创作向更加高效化、智能化的方向发展,为媒体融合转型带来更大发展空间。

(李钢:大众报业集团主任记者、数字文化产业工作室主任;宋耀:齐鲁晚报·齐鲁壹点副总编辑、齐鲁壹点传媒副总经理、大众技术中心副主任、山东省新型智慧媒体重点实验室管委会委员)

本文刊于《全媒体探索》2024年6月号,原标题为《大模型驱动下的省级党媒平台重塑——以“大众”新媒体大平台建设为例》,参考文献略。

今日热搜