给粤语上科技-“大模型与语言资源学术研讨会暨粤语语料库建设与大...
报告从语言生活与语言数据、语料库与大模型和BCC语料库建设三个方面进行介绍。荀教授首先介绍了从语言生活到语言数据的技术处理逻辑和方法,其次重点介绍了语料库建设中的关键技术,最后以北京语言大学建设的中文语料库BCC为例,分享了建设经验。下午,与会专家学者及产业界代表在参观了广州大学中央实验室后,围绕大会主题展...
要让AI“讲中国话”,必须建好中文语料库
规模为104GB,中文互联网语料库是在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的鼎力支持下构建的,旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。
北京外国语大学2023年硕士研究生招生简章
学术型硕士研究生的基本学制为3年;应用型专业学位硕士研究生(包括翻译硕士<含英语、俄语、法语、德语、日语、朝鲜语、西班牙语、阿拉伯语、泰语、意大利语十个语种的口、笔译专业>、汉语国际教育硕士、金融硕士、国际商务硕士、会计硕士、新闻与传播硕士、工商管理硕士<全日制>)学制均为2年。英语学院英语笔译专业政治文...
加快建设人工智能大模型中文训练数据语料库
[5]以数据类型为例,相较于其前身PaLM的纯英文文本训练数据集,由谷歌开发的PaLM-2模型使用的语料库中包括数百种人类和编程语言、数学方程、科学论文等多类型数据,并因此使得PaLM-2模型在高级推理、翻译、代码生成等方面的表现优于PaLM。训练数据规模和类型的丰富,不断驱动大模型能力从特定任务模型继续扩展,显现出通用...
超越虚拟界限:中国数字话语中的元宇宙技术、旅游和终身学习的交集
测量3:特征向量中心性是衡量中心性的另一种方法,即根据网络的整体结构找到最中心的词。这三个网络评估指标在以前的语义网络研究中被广泛使用。情绪分析可以揭示人们对元宇宙旅游的总体态度。此外,情绪分析对于捕捉公众对旅游业新兴数字世界的反应至关重要。将为帖子选择自动情绪分析工具。对于微博语料库,中国科学院开发...
姚前:行业大模型语料库建设与治理
建设具备公信力的行业大模型语料库是一项长期性、专业性的系统性工程,涵盖基础设施、公共服务平台、行业规范标准、激励机制等方面(www.e993.com)2024年11月19日。在建设方法、实现路径上需形成合力,多措并举,久久为功(见图)。(一)充分借鉴通用语料库的成果和经验国际通用语料库,如国外的ThePile、C4、Wikipedia(维基百科)等数据集,以及国内的...
推动智能语言服务学科建设
语言数据学结合语言学与数据科学,旨在通过数据分析、机器学习和统计方法,研究和处理语言数据。目标是通过大数据技术和算法分析,从海量语言数据中提取有价值的信息和知识,应用于自然语言处理、语言研究和实际应用中。研究重点包括语料库构建、数据标注与清洗、数据分析与挖掘、语言资源管理等。计算翻译学结合了翻译学、...
方案全文来了!北京教育领域人工智能应用工作方案发布
聚焦教育教学模式的创新,建设学生学习与发展、教师教学方式变革、学生身心健康、家校社协同育人、教育治理模式创新等5类典型示范应用项目,培育壮大一批可复制、可推广、示范效应突出的教育领域人工智能应用场景,形成一批人工智能助力教育教学创新的典型案例和创新品牌;聚焦人工智能教育领域应用突破,推动学校与人工智能企业长期...
语言学 | 积极推进汉字字料库建设与研究
字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础”。之所以要建设汉字字料库,是因为汉语语料库无法有效解决汉字本体研究所面临的诸多问题。汉字字料库通过数据库方式将零散、碎片化的汉字形体资料整合起来,可以为当前的汉字...
上海数据交易所章健:建设高质量语料库,推动大模型产业发展
国外的大模型语料库类型包括新闻、社交媒体、论坛、博客等,覆盖了产业、科技、教育、娱乐等多个领域和主题,涵盖了英语、俄语、德语、日语、中文等多种语言。国内语料库则以中文为主,多数来源于公司公告、研究报告、新闻等,覆盖的领域和主题也较为有限。最后,大模型语料库建设是一件长期性、专业性的工作,需要...