“弱智贴吧”的数据,居然是最强中文语料库
包括格式规范、答案审查、无关内容删除等。最终,精心构建了一个包含48,375条指令-输出对的高质量中文指令微调数据集。为了测试数据集性能,用COIG-CQIA对Yi系列、Qwen-72B等国内知名模型进行了微调,结果显示,COIG-CQIA比现有开源中文数据集对大模型的帮助更好。什么是指令微调指令微调是一种在大模型上进行微调的...
郭小平 郭瑞阳:新闻传播业的生成式人工智能应用及其风险应对
生成式人工智能的信息生产是基于既有语料库进行人机互动,本质上是根据用户提出的需求,对已有信息进行聚合、分析以及多元化呈现,无法为公众提供知识增量。从生成逻辑上,生成式人工智能遵循基于相关性的概率学分析和匹配,本质上是数据逻辑,不同于人类基于人生经验和特殊情境触发的情感表达。技术不可生成的部分,也即物的能...
加快建设人工智能大模型中文训练数据语料库
用于语料库训练的元数据缺乏统一标准,元数据字段缺失使得以元数据为基础的查询变得极为困难,进而降低了语料库的易用性;另一方面,线下数据结构化表示缺乏。如知识图谱、关系数据库等模式的结构化数据表示可以最大程度上方便数据的分析与利用,且包括文本数据、任意交错图像等在内的各种数据进行预训练的多模态语料库可以获...
史安斌 张碧思:巴黎奥运会的数智传播:技术创新、传播效果与发展趋势
[10]其中第一种是典型的媒体与人工智能进行内容共创的方式,生成式人工智能直接参与新闻生产,通过对人类语料库的概率性组合,在人工提问、修改与润色的辅助下完成内容生成。[11]在巴黎奥运会的传播中,人工智能的使用扩展了媒体与机器的共创,实现了媒体、机器与用户共同参与新闻制作。用户通过自主选择或偏好设置获得个性化...
大语言模型赋能文化生产的可能与反思
1.应用成本仍然较高。大模型技术存在一个经验规律,即语言模型的性能与参数量、语料库规模与训练吞吐量存在幂律关系,即训练模型的数据量越大,其模型性能越好。[19]以GPT-4为例,其预训练数据达到60TB,最大参数量达到10000亿,技术性能较上一代得到了巨大提升。而庞大的数据规模与计算需求引发业界对大模型实用性的担...
专题丨生成式人工智能对个人信息安全的挑战及应对策略
中国信息通信研究院泰尔终端实验室信息安全部、移动应用创新与治理技术工业和信息化部重点实验室工程师,主要从事移动应用软件安全、Android恶意代码分析、移动应用自动化检测等方面的工作(www.e993.com)2024年11月14日。论文引用格式:武林娜,宋恺,王淞鹤.生成式人工智能对个人信息安全的挑战及应对策略[J].信息通信技术与政策,2024,50(1)...
国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布...
与第一代InternLM相比,InternLM2在大规模高质量的验证语料上的Loss分布整体左移,表明了其语言建模能力的实质性增强支持200K超长上下文,「大海捞针」近乎完美长语境输入及理解能力能够显著拓展大模型的应用场景,比如支持大型文档的处理、复杂的推理演算和实际场景的工具调用等。
加速提升语言服务价值链,赋能中国经济高质量发展
格式调整是确保文件在不同平台和媒体上具有适当呈现的过程。这可能涉及对文档布局、字体、图片和颜色等视觉元素的调整,以符合目标文化的审美和功能性需求。后期处理通常由与原始翻译者不同的第二位语言专家完成,以保证客观性和细致的质量控制。4.客户支持和售后服务...
准社会交往理论下政务短视频优化的影响因素及策略
访谈过程全程记录,待访谈结束,与访谈对象逐一确认记录文本的准确性,而后建立原始分析语料库。访谈结束后,研究者分析整合所有原始记录,并随机抽取三分之二样本,借助质性分析软件Nvivo编码、划类、分析,进行模型搭建,余下的样本则用于理论饱和度检验[6]。表1访谈对象的基本信息及政务短视频使用描述...
在教室做数据新闻:一种反思性参与引领的教学设计
只是EdwardTian所从事的这类暂且称为新闻创新的活动,又涉及自然语言语料库的数据标注与建模、机器学习算法的设计,以及基于云计算的应用程序软件开发。如此一来,新闻学术与教育话语又准备用何种术语来描述诸如GPTZero这样的新闻创新实践呢?实际上,过去十年间,已经涌现出了一大批以“XJournalism”的形式组合而成的新...