粤语语料库建设又进一步!这个活动在广州大学举行
实验室采取1+1+N的运行机制,采取政产学研用一体化的模式,形成围绕粤语语料库建设与智能化服务的合作生态。重点实验室第一期建设周期为五年,长远目标是成为立足粤港澳大湾区、面向国家语言服务战略、通用粤语语料库及大模型粤语服务评测的国内乃至全球首屈一指的科研与对外服务专业学术性机构。实验室设立“双首席科学家...
新开普:建立AI语料库支持智能服务,采用多渠道数据构建和大数据...
公司语料库的构建结合了多个渠道的数据,包括获取版权和许可的私有数据和公开数据源,并针对收集到的数据做了严格的清洗和预处理,公司对语料库的维护,采用分层存储和分布式管理的方法,使用大数据处理技术实现数据的高效管理和快速检索,同时建立了完善的版本控制机制和数据更新流程。通过这些措施,新开普的AI语料库能支持多...
智源人工智能研究院林咏华:建中文语料库让AI说中国话
有的语料库仅将某一年度的微博文本作为口语语料,有的很大规模的语料库甚至没有收录口语语料。其二,样本大小未加以控制,同等规模的语料库文本覆盖面较窄,影响了语料库的平衡性与代表性。比如,有的语料库对现当代作家作品全文收录,而标准的平衡语料库应避免同一作者的文学作品过多、过长、比重过大,否则会影响语料库...
仅8B参数,可与GPT-4媲美,上交大团队构建多语言医学大模型
(iii)为了保证医学知识的广泛涵盖,研究人员整合了一些开源医学网站的文本,以权威、全面的医学信息丰富他们的语料库;(iv)还整合了许多现有的小型医学语料库数据集,进一步增强了语料库的广度和深度。研究人员表示,MMedC是第一个专门针对多语言医学领域构建语料库的尝试。一套新基准至于新基准,该团队首先汇总MMe...
研发怎么构建“技术壁垒”?
即使在代码开源的情况下,使用的训练语料以及参数调整,也会使得同一套代码的结果差异很大。AI算法分析的困难性以及AI所需庞大的语料库,会使得竞争对手很难去抄袭或者是超越。五、构建顺序、资源投入及个人看法上述,分享了我对几层壁垒的定义。目前我们的很多产品的一些优势项主要还是停留在“规则层”、“代码层”...
《中国英汉平行语料库研究》等中国自主的知识体系成果发布
“中国英汉平行语料库”库容超过一亿字词,系国际上最大的双语平行语料库,开创了历时复合架构,解决了检索平台的部分技术问题,开展了基于该语料库的多种新型研究,构建了翻译汉语和原生汉语类比的历时复合语料库,对语言发展、语言间关系、翻译比较等综合研究有重要价值(www.e993.com)2024年11月19日。北京市社会科学院历史研究所所长刘仲华发布《北京...
腾讯联合多方发起AI向善语料库共创
近期,由腾讯公司的多个部门联合BottleDream、复旦大学老龄研究院、清华大学无障碍发展研究院,正在发起一项面向全社会的AI向善语料库共创行动:为那些在商业环节里失声的人群和话题,构建一个更具人文关怀的AI语料库,推动AI为人类的积极发展、福祉和幸福发挥更大的价值。
谭方正:在数字教材领域如何布局大模型和语料库?
2023年以来,高教社在教育大模型训练和语料库建设方面持续发力,计划在2024年秋季推出基础学科大模型和课程智能体,服务“101计划”(“101计划”是拔尖创新人才培养的一项筑基性工程,由教育部统筹,汇聚顶尖高校、顶尖师资、顶尖出版单位等各方资源,以课程、教材、教师和实践项目等基础要素建设,来带动教育教学系统改革...
姚前:行业大模型语料库建设与治理
国际通用语料库,如国外的ThePile、C4、Wikipedia(维基百科)等数据集,以及国内的“书生·万卷”多模态预训练语料、中国网络空间安全协会发布的中文通用语料,都可作为建设行业大模型语料库的基础。为了扩大通用语料库资源,要兼顾自立自强和对外开放,可考虑对Wikipedia、Reddit(美国娱乐、社交及新闻网站)等特定数据源建立过...
蓝海沙龙|第272期:“我国大模型中文语料库的发展现状与高质量发展...
赵宇表示,大模型语料库的建设离不开高质量的数据解析和清洗,需要大量的人力和算力投入。如何更好地评估数据价值和数据成本,是建设数据共享生态的关键。因此,建议发挥国家宏观调配优势,从国家层面建立统一的数据机关、数据平台,完善法律法规,设置激励政策,统一数据质量标准,从而促进数据市场繁荣。