要让AI“讲中国话”,必须建好中文语料库
语料库是人工智能的粮食和养料,两台一模一样的电脑,使用一样的算法,但是用不同的语料库“喂养”,结果必然是大相径庭。上周,长江日报《读+》周刊专访了北京智源人工智能研究院副院长兼总工程师林咏华,智源研究院由科技部和北京市支持,依托北大、清华、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京...
史安斌 张碧思:巴黎奥运会的数智传播:技术创新、传播效果与发展趋势
[10]其中第一种是典型的媒体与人工智能进行内容共创的方式,生成式人工智能直接参与新闻生产,通过对人类语料库的概率性组合,在人工提问、修改与润色的辅助下完成内容生成。[11]在巴黎奥运会的传播中,人工智能的使用扩展了媒体与机器的共创,实现了媒体、机器与用户共同参与新闻制作。用户通过自主选择或偏好设置获得个性化...
“弱智贴吧”的数据,居然是最强中文语料库
包括格式规范、答案审查、无关内容删除等。最终,精心构建了一个包含48,375条指令-输出对的高质量中文指令微调数据集。为了测试数据集性能,用COIG-CQIA对Yi系列、Qwen-72B等国内知名模型进行了微调,结果显示,COIG-CQIA比现有开源中文数据集对大模型的帮助更好。什么是指令微调指令微调是一种在大模型上进行微调的...
郭小平 郭瑞阳:新闻传播业的生成式人工智能应用及其风险应对
生成式人工智能的信息生产是基于既有语料库进行人机互动,本质上是根据用户提出的需求,对已有信息进行聚合、分析以及多元化呈现,无法为公众提供知识增量。从生成逻辑上,生成式人工智能遵循基于相关性的概率学分析和匹配,本质上是数据逻辑,不同于人类基于人生经验和特殊情境触发的情感表达。技术不可生成的部分,也即物的能...
加快建设人工智能大模型中文训练数据语料库
结构化数据在语料库模型训练中起着重要作用。与非结构化数据相比,标准统一、格式一致的数据资源更易于理解和利用。然而,目前我国在训练数据语料库建设中面临线下数据结构化标准的泛化、公共数据结构化标准的缺失以及网络数据质量低下等问题,这些问题在不同程度上制约了语料库的训练与发展。
雅思考试的写作有什么备考步骤
1、积累雅思英语写词汇的语料库备考阶段必须要有意识地积累一些特殊的写作词汇(www.e993.com)2024年11月14日。雅思考试从理论上讲需要准备8000词汇,但有关雅思写作的核心词汇一般都只有几百个,这真的是可以应付两百多个雅思作文题目,所以考生们要更扎实地积累自己对于每一个给定话题的语料库。例如大家写肥胖问题,还要去分析肥胖的原因与危害、如...
准社会交往理论下政务短视频优化的影响因素及策略
访谈过程全程记录,待访谈结束,与访谈对象逐一确认记录文本的准确性,而后建立原始分析语料库。访谈结束后,研究者分析整合所有原始记录,并随机抽取三分之二样本,借助质性分析软件Nvivo编码、划类、分析,进行模型搭建,余下的样本则用于理论饱和度检验[6]。表1访谈对象的基本信息及政务短视频使用描述...
大语言模型赋能文化生产的可能与反思
1.应用成本仍然较高。大模型技术存在一个经验规律,即语言模型的性能与参数量、语料库规模与训练吞吐量存在幂律关系,即训练模型的数据量越大,其模型性能越好。[19]以GPT-4为例,其预训练数据达到60TB,最大参数量达到10000亿,技术性能较上一代得到了巨大提升。而庞大的数据规模与计算需求引发业界对大模型实用性的担...
专题丨生成式人工智能对个人信息安全的挑战及应对策略
中国信息通信研究院泰尔终端实验室信息安全部、移动应用创新与治理技术工业和信息化部重点实验室工程师,主要从事移动应用软件安全、Android恶意代码分析、移动应用自动化检测等方面的工作。论文引用格式:武林娜,宋恺,王淞鹤.生成式人工智能对个人信息安全的挑战及应对策略[J].信息通信技术与政策,2024,50(1)...
超越“建构主义”:中国共产党形象全球传播的场域逻辑
中国共产党特色对外传播话语体系作为中国共产党文化资本的重要组成部分,需要将中华优秀文化、世界优秀文明成果及中国共产党的先进理念注入其中,形成丰富且融通中外的语料库资源,使中国共产党特色对外传播话语体系以“人民至上”为核心,涵盖政治、经济、文化、科技、体育等多个方面,既充满深厚的人文底蕴又有与时俱进的特点...