大模型发展提速 中文语料够“吃”吗
语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。商汤科技大装置事业群高级总监张行程告诉记者,中文高质量语料相对缺乏是国内外大模型面临的共同问题。中文语料库不仅规模较小,且其电子化和网络化程度明显不足。此外,受版权、隐私等限制,许多优质中文语料库也无法公开获取。其...
学术观点 | 蔡金亭、常辉:概念迁移研究的理论框架与方法框架
从表1可以看出,Jarvis始终把概念迁移看作学习者使用语言时所发生跨语言影响的一种特殊情况,因此他在定义概念迁移时,一直在设法为跨语言影响提供恰当、全面、易懂的限制语,主要经历了从片面到全面(即从概念到同时涵盖概念和概念化模式),从心理到语言(从使用概念表征、概念、概念化等心理学术语到使用概念意义等语言学...
战争隐喻、国家身体与家国想象——基于语料库的新冠肺炎疫情报道...
具体来说,结构隐喻指一个概念由另一个概念来进行隐喻建构,如“争论是战争”(argumentiswar);方位隐喻多是与空间方位有关的概念,如“我很低落”(I’mfeelingdown);本体隐喻则指将事件、活动、情感、想法等视作实体物质,拟人即一种典型的本体隐喻,如“通货膨胀把我们逼入死角”(Inflationishackingusint...
顾曰国 | 语言学的本质是什么?究竟要研究些什么?
比如语音学、音系学、句法学、形态学、语义学、语用学、词汇学、修辞学、语体学、方言学、比较语言学、历史语言学、话语分析、篇章语言学、会话分析、社会语言学、人类语言学、心理语言学、认知语言学、应用语言学、语料库语言学、计算语言学;还有神经语言学、侦破语音学、临床...
网络内容规范中的隐喻和想象:对政府和互联网平台的话语分析
(一)语料库的构建为探究以上问题,本研究建立了一个小型的语料库。区别于构建一个体量巨大的文本库进行量化文本分析(如“语料库语言学”的方法),本文基于研究者的经验和主观判断选择关键文本,再进行细致的定性分析。采用这种研究方法的考量是,涉及互联网内容治理的话语的数量相对较少,且具备相当的同质性;同时量化文本...
徐艺玮:晚清以降中文书面语中颜色词的使用和演变
一、基本颜色词的界定基本颜色词就是用来表示最基本颜色概念的词,是对不同颜色范畴的概括(www.e993.com)2024年11月15日。语言学中关于基本颜色词的范围界定历来就有众多讨论,但大多是基于或借鉴美国学者柏林和凯在20世纪60年代提出的基本颜色词假说而展开的讨论。这里简单介绍两点:首先是基本颜色词应满足的几点基本标准:...
今天是国际儿童图书日,儿童分级阅读的本质是阅读的科学化
最终,一个几千万字的语料库构建完成,计算机就此有了丰富的“学习教材”。而整个项目的另一大重头戏——如何让机器学会为篇章难度分级,成了团队接下来的重点任务。“开始的时候我们按传统的方法来做,从篇章中寻找一些直观的语言学特征。比如,一篇文章的字笔画少、高频词出现得多,这篇文章就容易阅读。”吴云芳说,这...
陈源初:沉睡与清醒的对立
他在其系统中限定了可能的绘画记号的语料库,但正是这样的限定极大地提升了记号的价值。1920年后,蒙德里安艺术的两个方面解释了为何他的艺术成为结构主义方法的理想对象:首先,它是一个封闭的语料库(不只是作品总产量少,而且如上所述,他所用绘画元素的数量有限);其次,他的全部作品很容易归成系列。在结构主义...
??王迪|数字赋能法律监督现代化研究——以网络犯罪电子数据技术...
首先,在逻辑上,由于知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相关关系,这种建模技术尤其适合描述客观世界中的各种概念、实体及它们相互之间的关系,而且在非结构化和半结构化数据的特征提取、内容检索和表示理解方面具有独特优势,契合了法律文书及为数众多的半结构化形式的电子数据的智能理解...
专家学者荟聚衡师,探讨高校外语教学与语言数据应用
其中,上海外国语大学校长助理及语料库研究院院长胡开宝教授以“语料库与外语智慧教育体系的构建”为题,介绍了智慧教育与智慧外语教育体系的界定与特征,探讨了语料库的技术优势及其在智慧教育体系构建中的具体应用;上海外国语大学语料库研究院助理研究员李晓倩博士作了题为“智能化多语种教学与科研平台简介与应用”的发言;...