宋丽珏|数字法学的语言数据基础、方法及其应用——以法律语料库...
将语料库语言学的工具和方法应用于法律问题或法律解释,这一想法可以追溯到2010年秋季,斯蒂芬·穆里森(StephenMouritsen)在《杨百翰大学法律评论》(BYULawReview)发表了一篇题为《词典并非堡垒:定义的缺陷与一种基于语料库的平义解释方法》的文章。文中指出使用传统的词典定义进行法律解释时的缺陷,并提出了一种基于...
秩序修辞与协同:社交媒体语境下政府公共传播的逻辑重构与多元实践
按照讯息功能框架,以疫情发布、核酸检测、防控工作、社区居民为关键词进行数据清洁和文本筛选,经5名编码员交叉检验后确定采集6072篇文本,生成语料库(见表1)。(三)关键文本语境重构分析1.词频分析文本内容可以通过“词云”工具进行词频分析,以识别社交媒体话语中的关键文本。在对样本文本进行实意分词后,对总体样本...
??王迪|数字赋能法律监督现代化研究——以网络犯罪电子数据技术...
同时,结合法律语料库进行文本的信息抽取和标注。模式层的知识图谱建立以后,系统要能够自动完成规则推理,还需要对具体案件建立个案法律知识图谱,即数据层知识图谱。数据层知识图谱的建立有以下几个关键环节。一是要素提取,即在电子卷宗基础上建立“要素-证据”关联机制,由系统OCR技术识别结合法律语料库提取证据元素实体,进...
王迪|数字赋能法律监督现代化研究
法律语料库构建的步骤一般是:按照法律系统的内部体系对所有语料进行编排形成初步的生语料库,然后由系统进行自动分词和词性标注、词频统计,经过人工校对后生成法律词表,提取法律词汇,生成包含法律术语、法律基本用语和法律语境常用词汇在内的法律基本词汇表,最后分析总结法律领域的惯用表达句式。众所周知,自然语言表达具有句式...
怎么处理文本数据?自动文本分析的三种类别 | Social Science...
词频分析的另一种方法是归纳式的,允许从语料库中发现词汇频率与元数据之间的有趣关系。在差异语言分析(DLA)中,分析师选择一个感兴趣的因变量——通常是文档级元数据。然后,针对词汇中的每个词汇,计算其流行率与因变量之间的关联(如皮尔逊相关性)。然后对每次测试的P值进行多重比较校正,以降低错误发现的风险。最后...
18世纪就有GTA?词频统计器里的另一部“近现代史”
刚上线时,谷歌语料库中拥有超过500万本图书,占世界上所有已出版书籍的4%,其中以英语书占多数(www.e993.com)2024年9月23日。2020年7月,谷歌语料库更新至2019版本,收录从1500年到2020年2月的书籍文本,涵盖英文、简体中文、法文、德文等八种语言,图书数量已超过千万本。谷歌表示,词频统计器得出的数据允许免费下载并用于任何用途,因此这项工具受到...
新传头条 | 首个“人类卫生健康共同体”暨中国卫生外交语料库正式...
基础语料库功能1.词频与高频词统计:统计语料中前n个(n可由用户设定)出现频率高的词语,返回对应的高频词及出现次数。2.主题词分析:用户可通过指定年份,查看特定年度卫生外交主题词或关键词。3.关键词语境分析:用户可通过输入关键词,查看该词的上下文语境。例如,输入“抗疫”即可获取卫生外交报道中与“抗疫”...
学术观点 | 许家金 人文社会科学研究的语料库语言学路径
我们可以将这些心愿和目标理解为心理学上的“动机”。该网站会实时汇总网民的热门心愿,并将网民心愿按照频数排序呈现(见表1),即支持率。这些数据十分类似语料库研究中的主题词表或搭配词表。而心愿单和词频表在本质上都是人们语言使用的结果。表1网民心愿表(前20项)...
管窥百年普利策:基于普利策新闻奖嘉奖辞的词频分析(1917-2016)
研究问题三:一百年来(1917-2016)在民主党、共和党等不同党派执政期内,普利策新闻奖嘉奖辞词频的变化情况如何?二研究方法(一)数据来源本研究,选取1917年至2016年普利策新闻奖所有获奖作品的嘉奖辞,建立词频分析语料库。数据来源于主办方美国哥伦比亚新闻学院普利策新闻奖官方网站。我们共获取普利策新闻奖全部...
科研方法 | 翻译常用10大语料库网站!收藏了!
SketchEngine是个功能丰富的在线语料分析网站,提供词频统计、语料标记、术语提取、历时分析等多种语料处理功能。httpssketchengine.eu/8.TAUSData翻译自动化用户协会(TAUS)运营的大型翻译记忆库网站。订阅用户可任意搜索、浏览并下载该网站提供的记忆库文件,也可调用数据云API。