粤语语料库建设与大模型评测重点实验室成立—新闻—科学网
粤语语料库建设与大模型评测重点实验室主任齐佳音表示,实验室将通过建立岭南文化核心语料及细分领域知识库、粤语数据资产库、粤语高质量数据集,以该实验室为载体形成面向人工智能应用的粤语文化数据资源基础服务能力以及面向人工智能粤语服务的内容安全合规评测能力,为粤语的数据化、资源化、服务化和产业化助力。
智源人工智能研究院林咏华:建中文语料库让AI说中国话
有的语料库仅将某一年度的微博文本作为口语语料,有的很大规模的语料库甚至没有收录口语语料。其二,样本大小未加以控制,同等规模的语料库文本覆盖面较窄,影响了语料库的平衡性与代表性。比如,有的语料库对现当代作家作品全文收录,而标准的平衡语料库应避免同一作者的文学作品过多、过长、比重过大,否则会影响语料库...
粤语语料库建设与大模型评测重点实验室成立
“当语言遇到大模型,每个国家,每个语种,要重新审视自己的文化语言战略。”会上,重点实验室主任、广州大学齐佳音教授介绍,重点实验室将通过建立岭南文化核心语料及细分领域知识库、粤语数据资产库、粤语高质量数据集,以重点实验室为载体形成面向人工智能应用的粤语文化数据资源基础服务能力以及面向人工智能粤语服务的内容安全...
新开普:建立AI语料库支持智能服务,采用多渠道数据构建和大数据...
新开普在人工智能领域积极探索,并逐步建立了自己的AI语料库,用于支持智能服务和产品的研发。公司语料库的构建结合了多个渠道的数据,包括获取版权和许可的私有数据和公开数据源,并针对收集到的数据做了严格的清洗和预处理,公司对语料库的维护,采用分层存储和分布式管理的方法,使用大数据处理技术实现数据的高效管理和快速...
要让AI“讲中国话”,必须建好中文语料库
智源研究院联合拓尔思等单位共建的“中文互联网语料库”CCI1.0正式发布,规模为104GB,中文互联网语料库是在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的鼎力支持下构建的,旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动...
新国都:控股子公司上海拾贰区建立了多语言语料库用于提升自身模型...
SZ)8月10日在投资者互动平台表示,公司控股子公司上海拾贰区建立了多语言语料库用于提升自身模型适用性,未来计划与各版权方合作,进一步扩大语料库的来源从而丰富语料库内容,暂未有其他布局及用途(www.e993.com)2024年11月19日。(记者蔡鼎)免责声明:本文内容与数据仅供参考,不构成投资建议,使用前核实。据此操作,风险自担。每日经济新闻...
新国都:控股子公司建立多语言语料库以提升自身模型适用性,计划与...
介绍一下AI语料布局以及相关技术?公司回答表示:公司控股子公司上海拾贰区建立了多语言语料库用于提升自身模型适用性,未来计划与各版权方合作,进一步扩大语料库的来源从而丰富语料库内容,暂未有其他布局及用途。敬请投资者注意投资风险。本文源自:金融界AI电报...
新国都(SZ300130):上海拾贰区建立多语言语料库,未来计划扩大来源...
董秘您好!介绍一下AI语料布局以及相关技术?董秘回答(新国都SZ300130):您好,公司控股子公司上海拾贰区建立了多语言语料库用于提升自身模型适用性,未来计划与各版权方合作,进一步扩大语料库的来源从而丰富语料库内容,暂未有其他布局及用途。感谢您的关注,敬请投资者注意投资风险。
...海外!建议加强AI翻译产学研合作 建议建立网络文学多语种语料库
一是提供政策和资金支持,激活市场主体的创新创造活力;二是整合资源统一标准,通过建立网络文学多语种语料库,增强AI对多语种的学习和适应能力,保障作品的语言风格、文化内涵和本地化适应性,以此提升整体内容的翻译质量,从而让不同母语的海外用户能通过阅读感受中国文化的魅力。(记者于琦)来源:央广网...
建立中国创新活动的语词体系
立足当下,建立中国创新活动的语词体系,应该集中力量做好几个方面的工作:第一,遵循理论源于实践又反哺于实践活动的规律,从先期使用的各种涉及创新创业活动的政策文本、条规制度、机构命名、工作流程、考评标准中,抽取被高频使用的语词,将其作为创新语词体系语料库的基础词汇部分。