“粤语语料库建设与大模型评测重点实验室”启动 推动粤语语料数据...
11月14日,“大模型与语言资源学术研讨会暨粤语语料库建设与大模型评测重点实验室启动会”在广州大学(黄埔校区)举行。据介绍,“粤语语料库建设与大模型评测重点实验室”(以下简称重点实验室)将围绕粤语文化精神标识体系研究、通用粤语语料库建设、大模型粤语言语交互质量评测、大模型粤语言语交互质量提升研究四个方向开展...
...科技文献与技术情报智能服务平台建设——语料库建设公开招标公告
机械工业信息研究院面向先进制造科技文献与技术情报智能服务平台建设——语料库建设招标项目的潜在投标人应在北京国际贸易有限公司217室获取招标文件,并于2024年12月03日10点10分(北京时间)前递交投标文件。一、项目基本情况项目编号:0686-24300D033284N项目名称:机械工业信息研究院面向先进制造科技文献与技术情报...
智源人工智能研究院林咏华:建中文语料库让AI说中国话
我们可以通过收集和整理不同领域和语境下的汉语文本进行语料库建设,然后依托语料库中的大量语言数据来训练模型,并将其应用到机器翻译、语音识别等领域。在“汉语思维”方面,需要解决的问题包括汉语的音调、声调和语音变异等问题。此外,还需要考虑汉语的方言和口音等因素。比如,汉语中有许多词汇在不同语境下的发音和语...
要让AI“讲中国话”,必须建好中文语料库
一方面我挺开心,我们3.0的语料库跟其他已有的中文开源语料库相比,训练之后得到的模型在中文质量上能力上更优;另一方面,我们也觉得很难一家去把整个问题解决,最好是出现更多的高质量中文语料库,让不同的企业可以去做更多的选择。读+:还有一种说法,语料库爬取的都是网页,但实际上近10年来,中国互联网很多数据是在...
新时代网络内容建设如何推进?来看这个案例!
针对大模型存在的意识形态风险,实验室研发生成式人工智能内容安全测评系统;应对国内大模型训练普遍缺少高质量语料的问题,实验室建设主流价值语料库,目前已完成300多亿字基础语料、12万道问答语料,并在部分大模型厂家得到应用验证;面对生成式人工智能内容的大量涌现,与之相随的是深度伪造等安全风险,实验室推出深度合成内容...
加大国家通用语言文字推广力度 筑牢强国建设语言基石
我们将充分激活语言文字数字要素潜能,推动语言文字与人工智能、大数据等信息技术深度融合,健全语言文字标准体系,建设新型国家语料库,研制语料库建设规范,服务推进人工智能基础能力建设(www.e993.com)2024年11月19日。启动语言国情国力调查,构建涵盖语言使用、语言能力、语言资源等多维度多层次的调查体系,填补国情国力调查空白,为深化教育综合改革和综合国力...
中央网信办:打造高质量中文语料库,大力推进人工智能基础能力建设
格隆汇8月12日|据新华社,中央网信办主任庄荣文在接受采访时表示,下一步,强化自主可控,激发创新活力。着力促进自主可控算力芯片、算法框架研发建设,打造高质量中文语料库,大力推进人工智能基础能力建设,加速自主大模型研发和应用。坚持包容审慎和敏捷治理,优化大模型备案流程,降低企业合规成本,持续激发企业创新活力。
首个语料库建设导则面世!近二十家企业共同发布
本次论坛以“语料筑基,智生时代”为主题,围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。《语料库建设导则》发布。人民网记者王初摄为实现“语料数据资源共建共享”“鼓励多元主体共同推动高水平语料数据要素建设”的目标,上海库帕思科技有限公司会同覆盖多...
WAIC 2024丨游族网络CEO陈芳:将持续建设优质语料库
“我们能直观地通过游戏语料的数据获取用户对不同IP角色的喜好程度,并进行IP要素拆解分析,针对不同群体的喜好进行IP定制。”陈芳透露,游族网络将持续进行语料库的建设,通过自行开发与外部合作并行的方式,服务于游戏开发、本地化、全球市场及用户分析。“通过分析玩家反馈,我们能更直接有效地获取游戏反馈意见,并通过...
港航业大模型语料库建设亟需提质提效
而“综合语料价值指数”(ComprehensiveCorpusValueIndex,简称CCVI)综合考虑了语料的质量、所属分类的权值以及数量,可以更客观地反映垂直领域大模型语料的资源价值(CCVI=语料质量×语料分类权值×语料数量)。CCVI评价的引入,不仅能够帮助使用者更加科学地评价和选择语料库,还能够引导在语料库建设中注重质量、多样性和...