30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全...
直接使用:httpsmy5353/30429*Yi-34B-Chat-GGUF该模型是Yi-34B-Chat的GGUF格式。直接使用:httpsmy5353/30429*Yi-34B-Chat-4bits该模型是Yi-34B-Chat模型的4bit量化版,可以直接在消费级显卡(如RTX3090)上使用。直接使用:httpsmy5353/304297.Qwen通义...
超全大模型资源汇总|30 个优质 NLP 数据集和模型,一键使用 8 个...
直接使用:httpsmy5353/sharegpt13.SMP-2017中文对话意图识别数据集该数据集为SMP2017中文人机对话技术评测(ECDT)任务一数据集。直接使用:httpsmy5353/smp1714.Chinese-Poetry中文古典诗歌文集数据库该数据集是最全的中华古典文集数据库,包含5.5万首唐诗、26万首宋词、2.1...
钛媒体独家|人民网打造Sora场景的全球最大中文语义语料库?相关...
语料库的进一步丰富充实或将使资料查找更加便捷,进一步降低了普通人的AI使用门槛,帮助普通人以更简单的方式获取更全面的信息。但人民数据方面没有透露该语义语料库的更多中文名称以及细节等。人民数据方面也提醒,AI技术和应用创新,“合规”始终是底线。未来还需加强对AI大模型安全、规范、可持续发展的探索,充分挖掘...
精品频出圈 人民日报社这样推进媒体深度融合发展|文化中国行
以新质生产力催生媒体融合新模式、新动能,人民日报社正依托传播内容认知全国重点实验室,全体系构建智能化能力,推进人民传播大脑、人民智媒大模型以及主流价值语料库建设、AI赋能内容生产已经全流程展开。四是走好全媒体时代的群众路线,强化主流媒体共情力,以共情激发共识,强化与用户连接,切实做好上连党心,下接民...
人民网:5个实践方向让“媒资+AI”可行、有用、有商机
例如,人民日报社主管、依托人民网建设的传播内容认知国家重点实验室推出的人工智能写稿秘书“写易”创作引擎,通过AI训练学习符合我国主流价值观的数据集和媒体语料库,内容涵盖政治、经济、文化、社会、生态、党建、国防、外交等重点领域,保障生成内容安全,着重为党政机关、事业单位、国有企业提供优质安全的智能创作服务。目...
NLP语料库推荐:横跨六十余年,囊括人民日报、参考消息与腾讯新闻
据悉,刘焕勇通过公开收集的方式,从网络媒体和平面媒体两个角度出发,形成腾讯新闻、人民日报、参考消息三大历时语料库(www.e993.com)2024年7月30日。(该项目不可商用,版权归数据来源,侵删)至于这些语料库的作用,在专业人士眼中非常宝贵。例如,至少可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。
第四批外语词推荐使用中文译名发布
据悉,确定语词的中文译名,除了运用语料库频次统计等方法外,还特别注意听取了计算机、通信、网络、商标注册、语言文字应用等领域专家的意见和建议,并采取网络问卷的方式进行一定范围的调查作为择定部分译名的参考。教育部语言文字应用管理司司长姚喜双表示,推荐译名发布后,有利于在我们的社会中,尤其是在公共表达中突出语言...
干货|国内最常用的17个语料库
为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库(简称NEPD,httpcorpus.njau.edu/),目前该语料库涵盖了《人民日报》2015年1-5月、2016年1月、2017年1月、2018年1月共...
这些“后浪”初一就学数据挖掘玩语料库
在课程中,同学们运用人工智能工具,使用人民日报“语料库”,体验文本分类器的生成与工作过程,部分学生还完成了网络远程实验。他们从互联网浩瀚无烟的“语料库”中下载海量的体育类文章,进行简单的复制粘贴,选择“词频统计”和“删除停用词”程序,系统自动生成体育文章分类器。把某篇文章复制到体育文章分类器,分类...
“乡村振兴”“乡愁”等词汇登上新版语料库
收集之后,还要进行标注,所谓标注,就是按照不同的需求对相应的语言单位添加标记。比如标注名词、动词,比如把方言与普通话、中文与英文对应的段落、句子、词汇对照起来。不同需求的使用者,可以根据自己的需要寻找适用的语料库。”作为现代汉语通用语料,北京大学计算语言研究所发布的“1998年人民日报语料”无论在学界和...