智源人工智能研究院林咏华:建中文语料库让AI说中国话
其一,语料库采样不平衡,多为书面语语料,缺少口语语料。比如,目前在汉语学界使用率很高的某语料库,其当代语料中报刊语料的占比高达70%以上,而口语语料占比不足0.3%。有的语料库仅将某一年度的微博文本作为口语语料,有的很大规模的语料库甚至没有收录口语语料。其二,样本大小未加以控制,同等规模的语料库文本覆盖面...
要让AI“讲中国话”,必须建好中文语料库
读+:有一种说法,认为中文语料库的数量质量不如英文,是不是这么一回事?林咏华:全球使用中文来写的数量大概是在5%,很多的统计都有类似的结果,因为直接用中文来进行创作的数量本身就比英文要少很多,所以中文的数据集天然会比英文的要小。质量上,长期以来,语料数据集的积累和开源基本上都是在国外做的,他们在做的...
学英语,用好这10种书
词典中收录的单词,是依托含8500万词的“牛津学术英语语料库”(OxfordCorpusofAcademicEnglish)、通过科学分析精选得出,普遍见于各门学科、各种类型的学术文章。无论读者专业为何,皆可从中受益。绝大多数单词释义用2300个常用词撰写而成,解释词语在学术语境中的特殊意义。本词典曾荣获2015年英国文化协会ELTons“学习...
雅思词汇书正版购买指南:避免购买盗版的实用建议
雅思王听力语料库这本教材收集了大量的雅思听力原文和相关练习题,涵盖了各个话题和难度级别,帮助考生提高听力理解能力。雅思真题7天速成胜经这本教材提供了一套系统的备考计划和方法,包含大量的真题练习和答案解析,帮助考生提高考试技巧和应对能力。九分达人雅思阅读这本教材详细讲解了雅思阅读部分的各种题型和解题...
SCI写好后怎么翻译成英文?写好SCI必备的十大翻译神器
??NetSpeak是一款提供免费线上单词、词组、语句翻译的工具,其特点是可以在线搜索和比较各种英文词汇、短句、语法、单词解释等内容,并且可以统计出这个用语的变化形态,还可以分析使用频率和情境,堪比谷歌翻译。10CNKI翻译助手??网址:httpdictki/...
北京外国语大学2023年硕士研究生招生简章
应用型(专业学位)硕士研究生:翻译硕士(包括英语笔译、俄语、法语、德语、日语、朝鲜语、西班牙语、阿拉伯语、泰语、意大利语的口译及笔译专业)为20000元/年,翻译硕士(英语口译专业)为30000元/年;汉语国际教育硕士为18000元/年;金融硕士50000元/年;国际商务硕士30000元/年;会计硕士为35000元/年;新闻与传播硕士为35000...
北京城市副中心、三大建筑英文怎么说?标准答案来了
《北京城市副中心关键词英文译法》是全市首例区级层面关键词译法标准,是区外办首次尝试对副中心重点领域关键词进行英文解读。下一步,区外办将持续深入学习中央、北京市关于副中心建设的重要讲话精神以及区委区政府政策文件,不断总结、丰富、完善关键词语料库,向国际社会更好讲述新时代副中心高质量建设发展成果。
火锅的英文 | 曾泰元
OED做了英语词汇的汇总分析,有助于我们宏观地了解语情现状。然而语言是活的,连写的hotpot和分写的hotpot之间的区别没有那么绝对,混用的情况比较普遍,甚至带连字符的hot-pot也偶有所见,可兼指英国的热锅和中国的火锅。这些拼写的流动都有足够的证据,在各种权威的语料库中均能找到许多相应的展现。
如何提升用词的准确度提高雅思写作分数
美国当代英语语料库(CorpusofContemporaryAmericanEnglish,简称COCA)是目前最大的免费英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。COCA的使用操作非常简单,在左侧的搜索框内输入有疑问的词组,点击搜索就可以看到对应的结果。
“growth”成2023年度《中国日报》英文热词
评选依据是基于中心建立的上千万词的报纸语料库,结合词频高低,选出能够反映年度社会聚焦、具有深远意义的词语。2021年和2022年语料中心以《上海日报》为研究标的,两届英文热词分别是vaccine(疫苗)和omicron(奥密克戎),ChatGPT则成为2023《上海日报》年度英文热词。今年课题组首次将热词评选推广至《中国日报》。