加快建设人工智能大模型中文训练数据语料库
[21]中英文语料总量差距的一个直接反映是中文开源训练数据集规模不足,英文开源数据集在GPT系列训练数据中规模非常庞大,而中文模型开发者可利用的网络开源数据集数量却十分有限,这种开源数据集数量上的不足导致中文模型的开发高度依赖自有业务产生和商业采购的数据,对缺乏互联网业务积累和充盈资金投入的AI初创企业十分不友...
中文互联网语料库CCI 2.0开放,打造大模型数据“共建-共享”新模式
3.制定文本语料共享清洗过滤规范,为高质量的中文语料库形成指引为了进一步提高语料共享的效率和质量,在语料共享清洗方面形成统一规范和技术要求,促进人工智能行业健康发展,数据集工作组编制了《文本语料共享清洗过滤规范(征求意见稿)》,以指导工作组成员单位在大模型训练中开展文本语料的共享清洗过滤。该规范包括范围、规...
宋丽珏|数字法学的语言数据基础、方法及其应用——以法律语料库...
法律语料库语言学(LawandCorpusLinguistics)是隶属于法学和语言学下的一个崭新的交叉学科方向,其主要研究方法是基于大型数据库及多种语料库分析工具,以法律文本(如法律、法规、合同)为依托,结合法律解释学及语料库语言学相关理论,进行文义分析。具言之,法律语料库语言学是利用大规模文本集合,通过观察检索行(concordan...
30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全...
1.seq-monkey序列猴子开源数据集1.0序列猴子数据集是用于训练序列猴子模型的数据集,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。直接使用:httpsmy5353/seqmon2.IEPile大规模信息抽取语料库IEPile是由浙江大学研发的大规模、高质量的双语(中英)信息抽取(IE)指令微调数据集,...
超全大模型资源汇总|30 个优质 NLP 数据集和模型,一键使用 8 个...
2.IEPile大规模信息抽取语料库IEPile是由浙江大学研发的大规模、高质量的双语(中英)信息抽取(IE)指令微调数据集,涵盖了医学、金融等多个领域。直接使用:httpsmy5353/300643.LongAlign-10K大模型长上下文对齐数据集LongAlign-10k由清华大学提出,是一个针对大模型在长上下文对齐任务中面临的...
积极服务国际人才,推动区域国际化进程,上海海事大学临港新片区多...
参与组织策划和语言服务的师生志愿者超300人次,连续三年参与编写和翻译《临港海外人才政策服务一本通》中英文版本,开发临港国际化管理术语库,为滴水湖高能级航运服务业创新大会提供口笔译一揽子语言服务...临港新片区多语言服务中心开展的一系列工作获得临港管委会和社会的广泛好评,多语言服务中心也逐渐成为临港对外交流的一...
1月语言学联合书单|隐喻与转喻
本书重点进行了视听输入模式下的词汇附带习得研究,尤其侧重研究口语中的词汇附带功能,罗列了不少语料库的实证研究成果。本书对一些重要术语,如中介语假说、中介语语用学、话语行为、社会语用能力、语用语言能力、标记等的解释补充了新的诠释和观点,增添了技能习得理论、中介语话语、社会教育模式、实践共同体、二语习得...
有道QAnything背后的故事---关于RAG的一点经验分享
第三,我们业务场景有很多混合语言的情况,比如库里面放的是英文的文档,用户用中文去问答。这种跨语种的能力,现有模型支持不好。第四,单纯的embedding在检索排序上天花板比较低,所以我们在embedding的基础上又做了rerank,共享同样的底座,head不一样。为啥我们自己训练的模型会比openai的效果好?我们认为可能是通才和专才...
CUC Paraconc中英语料库检索操作
01:41智谱清言在翻译实践中的应用-译中协助过程04:20智谱清言在翻译实践中的应用-译前准备工作(2)01:47智谱清言在翻译实践中的应用-译前准备工作(1)02:01智谱清言在翻译实践中的应用--智谱清言简介03:41口笔译专业学生视角分享--技术与世界...
第三届中英语料库语言学暑期讲习班落幕
7月28日—8月2日,第三届中英语料库语言学暑期讲习班在威海开班并圆满落幕。讲习班历时一周,约40位来自各高校的教师、学生参加了讲习班。中英语料库语言学暑期讲习班,由中国社会科学院语言所“语料库暨计算语言学研究中心”、“中国多语言多模态语料库暨大数据研究中心(北京外国语大学与中国社会科学院语言研究所...