智源人工智能研究院林咏华:建中文语料库让AI说中国话
国内现有大型语料库中的语料多为文本形式,多媒体形式的语料库规模均比较小,取材受限,无法反映汉语使用的全貌,尤其是鲜活口语使用的面貌。处于国际研究前沿的基于“多媒体、多模态”语料库的研究越来越多,但国家通用语的多媒体、多模态语料库的建设仍相对滞后。其五,语料库应用系统功能不足。(中国社会科学院语言研究...
报名开放|AI向善语料库高校专场共创启动:AI是我们对您的爱!
一、AI向善语料库与它的朋友们2024年8月20日,腾讯联合内外部多个组织共同发起了一项面向全社会的共创行动——AI向善语料库,为那些在商业环节里失声的人群和话题,如老年人、残疾人、困境女性、留守儿童、低收入者等等,构建一个更具人文关怀的AI语料库,推动AI为人类的积极发展、福祉和幸福发挥更大的价值。...
要让AI“讲中国话”,必须建好中文语料库
语料库是人工智能的粮食和养料,两台一模一样的电脑,使用一样的算法,但是用不同的语料库“喂养”,结果必然是大相径庭。上周,长江日报《读+》周刊专访了北京智源人工智能研究院副院长兼总工程师林咏华,智源研究院由科技部和北京市支持,依托北大、清华、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京...
语料若水,泽被万业!四川省情语料库“若水”正式上线
据介绍,雅砻江、金沙江合流之段,古称若水,滋养蜀地、泽被万物。语料库取“若水”之名,则是汇聚各行各业的数据,以其为基础进行智能化开发,为媒体领域大模型相关应用及智库服务提供强力支撑、为各类大模型提供安全语料支撑、知识增强服务、助力各类人工智能应用实现主流价值观对齐。“若水”以四川日报报业集团在国...
值得买科技CTO王云峰:1.2亿优质训练语料 找到最优数据配比
1.2亿条消费相关优质训练语料是怎样的一个概念?这不仅仅是数量上的庞大,还在于整体语料的质量和在语料库中的最优配比,并且语料质量还在持续提升和迭代。王云峰强调:“数据积累本身就是大模型的护城河之一。”智能消费决策:个性化推荐、多模态识别是发展方向...
开源:Test-Time Training 测试时训练对抽象推理的有效性
抽象和推理语料库(ARC)旨在通过语言模型解决视觉谜题的能力来评估其抽象推理能力(www.e993.com)2024年11月19日。每个谜题,以下简称为任务,由2D网格的输入输出对组成(大小可达30×30),包含由多达10种不同颜色构成的形状或图案,如图1(b)所示。每对输出是通过应用一个直观且共享的变换规则或函数y=f(x)得到的。实际上,这些变换非常多样化且复合...
必看!AI时代新闻业的7个变化
首先是信息生成机制层面,这是源头上的问题。AIGC带来的假新闻问题,与其本身所使用的语料库和缺乏真实核查能力的信息生产机制密不可分。AIGC的核心是基于数据预训练的大规模语言模型(LLM),其可以模拟人类生物学和神经学识别数据的模式,为用户提供答案。而基于概率生成和预训练材料的模式有两方面局限性:...
没想到吧,中文互联网上最好的大模型语料库是:弱智吧
被门夹过的核桃,还能补脑吗?考虑到大模型最欠缺的就是逻辑能力,看来这些更像脑筋急转弯的问答确实是大语言模型的好语料。而在弱智吧最近的首页上,一个排名靠前的帖子也很应景:“什么工作都可能会被人工智能取代,但弱智不会。”真的,有道理呢。
“弱智贴吧”的数据,居然是最强中文语料库
什么是指令微调指令微调是一种在大模型上进行微调的方法,通过提供指令和输出来指导模型更准确地完成内容输出。指令微调通过构建专业的指令格式的实例,通常包含任务描述、输入和输出等,然后以有监督的方式对大型语言模型进行精细化微调。简单来说,指令微调像是一种“妈妈教孩子”的方法,按照特定格式帮助大模型更好地...
加快建设人工智能大模型中文训练数据语料库
我国训练数据语料库的建设现状与存在问题训练数据语料库总体量级不足。中文训练数据语料库总体量级的不足,集中体现为中文语料在全球语料总量中占比较低,这一问题由来已久,难以在短期内改变。中文训练数据语料总量的不足,使高质量语料缺少积累,导致高质量中文语料尤为稀缺。中文训练数据语料在数量和质量上的弱势,间接导...