加快建设人工智能大模型中文训练数据语料库
用于语料库训练的元数据缺乏统一标准,元数据字段缺失使得以元数据为基础的查询变得极为困难,进而降低了语料库的易用性;另一方面,线下数据结构化表示缺乏。如知识图谱、关系数据库等模式的结构化数据表示可以最大程度上方便数据的分析与利用,且包括文本数据、任意交错图像等在内的各种数据进行预训练的多模态语料库可以获...
大语言模型驱动下的员工工作重塑机制
1.大语言模型的界定近年来,大语言模型在逻辑对话和交互方面表现出色,彰显了人工智能技术的巨大潜力。这些模型通过大规模语料库和复杂神经网络模型的训练,可以自动学习语法、句法、语义等语言层次的结构和规律。与传统的语言模型相比,大语言模型在逻辑性和灵活性方面具有显著优势,可以模拟人类的对话和写作,并生成符合语境...
一文说清:AI大模型在制造业中的应用类型
3.2丰富语料库在工业领域,可以获取到大量的基础数据、原始语料和规则性约束,这些丰富的信息资源构成了AI大模型在该领域内施展能力的关键。比如,设计蓝图、生产记录和质量检验数据都能够成为AI大模型训练过程中的重要素材。3.3明确的问题界定工业领域中的多数问题都具有明确的定义,其解决方案通常在一个...
建立中国创新活动的语词体系
创新的语料库初步完成收集后,应在业界和公众中,广泛听取各个方面的不同观点和意见,仔细论证,反复比较,审慎辨析筛选,精心修订,经得住复盘。构建创新语词体系的两大种类构建创新语词体系,从类型的细分角度来看,大致可分为:解释类语词、描述类语词两大种类。以解释类语词为例,其功能是对概念进行科学准确的阐述,标定...
高阳|通用人工智能提供者内容审查注意义务的证成
第一,由于训练大语言模型语料库数据质量对产出内容的关键作用,其可以预见语料库中含有的“毒性”数据将在输出内容中呈现或被放大。第二,算法黑箱以及内容生成机制的不透明,提供者有能力预见大语言模型可能随机生成有害信息。基于此,提供者负有侵权预见义务,即采取适当措施避免合理预见可能发生的危险。
人类愿赌服输?Sora背后的风险与隐患
Sora为实现高度智能化,必定需要通过大量数据的长期学习来不断增强其即时应用能力,这就需要拥有一个内容丰富、更新及时的语料库(www.e993.com)2024年11月14日。但是目前英语等西方语言在全球互联网内容中占据主导地位,其占比达到56.6%,而中文数据占比仅为1.5%。这意味着在构建语料库时不得不依赖大量的外文内容。在这些外文内容中,难免含有带有特定...
期刊目录 |《外语教学理论与实践》2024年第3期
本文基于相关概念、研究对象与方法的界定,梳理了基于语料库的环境与生态话语分析的现状。然而,现有研究在语料来源与规模、研究主题及视角与方法上还存有一定问题。鉴于此,我们应进一步加强语料库在相关研究中的应用和建设,拓宽研究视角与方法,推进该领域研究的发展。
大模型发展提速 中文语料够“吃”吗
语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。商汤科技大装置事业群高级总监张行程告诉记者,中文高质量语料相对缺乏是国内外大模型面临的共同问题。中文语料库不仅规模较小,且其电子化和网络化程度明显不足。此外,受版权、隐私等限制,许多优质中文语料库也无法公开获取。其...
学术观点 | 蔡金亭、常辉:概念迁移研究的理论框架与方法框架
他在界定概念迁移时,没有提及Jarvis等人的早期定义,而是从语言相对论入手,认为概念迁移反映的是一种特殊的语言对思维的影响,是语言相对论的特例。Odlin的定义与Jarvis等人的早期定义大相径庭,前者的聚焦点是语言对思维的影响,属于心理学的研究范围;后者的聚焦点是(与背景语言相关的)思维对语言的影响,属于应用语言学的...
战争隐喻、国家身体与家国想象——基于语料库的新冠肺炎疫情报道...
从语料库分析结果来看,党媒常诉诸战争隐喻(84.31%)、家庭隐喻(5.05%)与实体隐喻(3.19%),而市场化媒体使用较多的是战争隐喻(79.53%)、实体隐喻(7.35%)与水的隐喻(6.42%)。深入到具体报道文本探究二者的差异化隐喻建构,一方面,以《人民日报》为代表的党报与《财新周刊》《三联生活周刊》等市场化媒体在使用战争隐喻...