首个语料库建设导则面世,金融、教育、生命健康三大领域技术白皮书发布

2024-07-09 15:31:00 - 媒体滚动

转自:劳动报

首个语料库建设导则面世,金融、教育、生命健康三大领域技术白皮书发布

语料数据是人工智能研究和应用不可或缺的资源,高质量语料库更是人工智能赋能新质生产力的关键。7月6日,2024世界人工智能大会语料主题论坛举行,论坛上发布了金融、生命健康、教育三项行业语料术白皮书。

《高质量金融语料技术白皮书》聚焦银行、证券、保险、基金等行业实践,重新定义了高质量金融语料数据集的内涵和外延,形成了基于金融领域知识体系的“语料魔方”方法论。

《教育人工智能大模型数据治理与共享技术白皮书》对标国内外教育数据的系列政策、标准,确立了教育行业语料数据的标准用例与价值体系,形成了一套教育AI大模型数据治理与共享技术标准。

《高质量生命健康语料技术白皮书》从基础医学、药物研发、临床医学、健康管理、中医中药五个方向确立了生命健康语料库的路线图,创新了从寻源、清洗到标注、测试的工具体系。

与此同时,库帕思公司会同覆盖多模态数据资源供应、加工、应用和运营全链的近二十家企业共同发布了团体标准《语料库建设导则》。

本次论坛还发布了“语料运营平台1.0”,这是一个面向语料数据,具备“采、洗、标、测、用”五位一体工具链能力的平台。同时,大模型语料数据联盟正式发布“2024语料风云榜”,本榜单经过两个月严格的征集和评选,最终在众多参与企业中遴选出了10家上榜企业。

据了解,这10家企业聚焦提供高质量和多样化的数据集来支持模型训练和优化,承担了中国大模型开发中数据的收集、清洗、标注和管理,为AI算法提供必需的语料资源,显著提升中国大模型的性能和应用效果。

首届语料风云榜上榜企业有:上海恒生聚源数据服务有限公司、上海本原智数科技有限公司、北京云测信息技术有限公司、上海蜜度科技股份有限公司、星环信息科技(上海)股份有限公司、数据堂(北京)科技股份有限公司、整数智能信息技术(杭州)有限责任公司、标贝(青岛)科技有限公司、北京海天瑞声科技股份有限公司、天娱数字科技(大连)集团股份有限公司。

头图为论坛现场,劳动报记者陈宁摄

今日热搜