要让AI“讲中国话”,必须建好中文语料库
语料库是人工智能的粮食和养料,两台一模一样的电脑,使用一样的算法,但是用不同的语料库“喂养”,结果必然是大相径庭。上周,长江日报《读+》周刊专访了北京智源人工智能研究院副院长兼总工程师林咏华,智源研究院由科技部和北京市支持,依托北大、清华、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京...
天津外国语大学人工智能翻译实验室AI多功能语料库检索平台项目...
天津外国语大学人工智能翻译实验室AI多功能语料库检索平台项目招标项目的潜在投标人应在天津市南开区红旗南路濠景国际A座二层底商获取招标文件,并于2024年11月05日09点30分(北京时间)前递交投标文件。一、项目基本情况项目编号:GY-2024-239项目名称:天津外国语大学人工智能翻译实验室AI多功能语料库检索平台项目...
合合信息:破解大模型语料库难题的引领者
目前,大模型市场中在面对语料库问题时,存在着数据质量参差不齐、数据标注不准确、语料库规模不足以及语料库多样性欠缺等痛点。这些问题导致大模型在训练过程中难以获取全面、准确的信息,从而影响了其性能和泛化能力。合合信息深刻洞察到这些痛点,凭借其强大的技术实力和创新能力,推出了TextIn智能文档处理平台,为解决大...
WAIC 2024丨游族网络CEO陈芳:将持续建设优质语料库
据了解,所谓游戏语料库是指与游戏相关的大量文本数据,这些数据可以包括但不限于游戏对话、玩家评论、论坛讨论、游戏说明书、攻略、故事剧本、角色设定、游戏规则说明等。“优质的语料能够提供丰富、准确、多样化的语言数据,这些数据是训练AI模型的关键。”陈芳说,优质的语料能提升AI对物理世界的理解能力,帮助AI更好地...
首个语料库建设导则面世!近二十家企业共同发布
《语料库建设导则》发布。人民网记者王初摄为实现“语料数据资源共建共享”“鼓励多元主体共同推动高水平语料数据要素建设”的目标,上海库帕思科技有限公司会同覆盖多模态数据资源供应、加工、应用和运营全链的近二十家企业共同发布了团体标准《语料库建设导则》。
智源研究院发中文互联网语料库3.0,含1000GB高质量数据
中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点(www.e993.com)2024年11月18日。目前中文互联网语料库3.0(CCI3.0)数据量高达1000GB,包含2.68亿网页;中文互联网语料库3.0高质量子集(CCI3.0HQ)数据量达498GB。每条语料从10多个维度进行分析标记,附有安全分数、质量分数、信息密度等参数,方便用户选择高...
中央网信办:打造高质量中文语料库,大力推进人工智能基础能力建设
格隆汇8月12日|据新华社,中央网信办主任庄荣文在接受采访时表示,下一步,强化自主可控,激发创新活力。着力促进自主可控算力芯片、算法框架研发建设,打造高质量中文语料库,大力推进人工智能基础能力建设,加速自主大模型研发和应用。坚持包容审慎和敏捷治理,优化大模型备案流程,降低企业合规成本,持续激发企业创新活力。
加快建设人工智能大模型中文训练数据语料库
训练数据语料库总体量级不足。中文训练数据语料库总体量级的不足,集中体现为中文语料在全球语料总量中占比较低,这一问题由来已久,难以在短期内改变。中文训练数据语料总量的不足,使高质量语料缺少积累,导致高质量中文语料尤为稀缺。中文训练数据语料在数量和质量上的弱势,间接导致中文大模型企业只能退而求其次,通过语料...
谭方正:在数字教材领域如何布局大模型和语料库?
2023年以来,高教社在教育大模型训练和语料库建设方面持续发力,计划在2024年秋季推出基础学科大模型和课程智能体,服务“101计划”(“101计划”是拔尖创新人才培养的一项筑基性工程,由教育部统筹,汇聚顶尖高校、顶尖师资、顶尖出版单位等各方资源,以课程、教材、教师和实践项目等基础要素建设,来带动教育教学系统改革...
OpenAI和美国“贴吧”Reddit宣布合作 优质语料库价值凸显
OpenAI和美国“贴吧”Reddit宣布合作优质语料库价值凸显OpenAI宣布与社交网络Reddit建立合作伙伴关系,将把后者的内容引入聊天机器人ChatGPT和其他产品中,并允许Reddit在其在线社区中添加新的人工智能功能。两家公司周四在一份联合声明中表示,该协议“将使OpenAI的人工智能工具能够更好地理解和展示Reddit的内容,特别是最近...