第五届亚太语料库语言学会议(APCLC 2024)在上海交通大学召开
她在报告中,首先指出语料库数据尚无法完全解决基于语言使用的语言研究者面临的所有问题,紧接着提出,为了获取语料库中可能包含的丰富的认知信息,需要从根本上用不同的方法来理解和分析语料库数据。她通过使用英语中时态/体组合的案例研究,说明语料库语言学秉持的语言分析紧密贴近原始数据原则,该如何与认知语言学对分析的...
走近宋柔教授:78岁仍在科研前线,在语言学高校里做AI的计算语言学家
这个语料库中,每个英语有一个汉语译文,英汉句子内的小句与汉语译文的小句之间建立起对应关系,对于翻译研究和比较语言学研究很有意义。这些工作先后获得了四个国家自然科学基金和一个北京市自然科学基金的资助,发表了多篇论文。谈到计算语言学,宋柔教授告诉我,做研究不能光靠读论文。计算语言学学者要做计算机科学和...
播客|Vol.35 揭秘语料库:数字时代如何进行法律检索?
语料库的建立对于大模型而言是一个重要步骤。想象一下,我们拥有一座法律知识的宝库,里面藏有无数法律术语和案例。这就是法律语料库,它通过收集和分析法律文本,帮我们解锁法律术语的使用频率和语境。这不仅仅是个数据库,更是法学研究和实践的超级助手。语料库不仅让研究者能够更准确地理解和解释法律条文,还让法律实践...
特约文章丨大语言模型的知识冲突:成因、根源与展望
大语言模型通过预训练的方式,在海量非结构化数据上学习获取通用知识和语义表征能力,可广泛应用于自然语言理解、生成、推理、问答等诸多任务,被视为实现通用人工智能的关键基石;大语言模型卓越的泛化能力和强大的知识迁移特性,使其在智能对话、文本摘要、代码生成、决策推理等多个应用场景展现出巨大潜力,有望推动通用人工...
干货!大模型训练文本图片视频语料库产业链大全!
国家语委现代汉语平衡语料库:由中国国家语言文字工作委员会构建,旨在提供一个平衡覆盖现代汉语各类文体的语料库,适合进行语言学研究和教学参考。中央研究院平衡语料库:台湾地区的中央研究院构建的语料库,收集了大量的现代汉语文本,用于语言学研究和自然语言处理。搜狗实验室提供的语料库:互联网公司搜狗也提供了一些...
推动人工智能赋能语言服务业发展
可供计算机处理的数据中80%都是语言数据,语言智能水平及其应用的广度和深度,深刻影响着数字经济发展的质量(www.e993.com)2024年11月6日。目前的语料库普遍存在质量不高、重复建设、规模较小,加工深度较浅等问题。高质量、大规模、安全可信的语料数据对于大语言模型的训练和性能提升至关重要。借助人工智能技术挖掘多语种语料资源,通过大数据训练提升...
人工智能的负效应:没有大语言模型的语种未来会消亡
如果ChatGPT能在多种语言之间切换自如,那它是否破解了这世界通用语法的奥秘?2低资源语言在大语言模型中的代表性仍然不足尽管大语言模型具有变革潜力,但现实仍然是大语言模型主要迎合英语和少数其他高资源语言。对GPT-3等模型使用的训练语料库进行仔细检查后发现,各语种存在明显的不平衡:...
大模型发展提速 中文语料够“吃”吗
一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。因此,探索数据供需双方合作模式是关键。然而,要推动数据供需双方建立合作并非易事。“拦路虎”到底是什么?当前,大模型数据获取...
“译”语知洲争做多模态语料垂类模型首创先锋
在此背景下,北京外国语大学的仇浩杰和胡然带领团队首创性地提出了全球首个跨境商贸智能语料库调用模型的想法,通过整合公开及专有数据,设计并搭建将文本语料与图片、音频、视频一一映射的多模态语料库,提供异常高级别的语言精确性,填补了商贸领域高质量小语种数据和服务的空白。
破解大模型中文语料不足问题,并非毫无办法 | 新京报专栏
目前,语料库的Web检索已成为语言学研究领域的主要共享方式,但是对于语言信息处理研究和AI使用,也还存在一定难度,往往需要语料库全文或子库。因此,需要在Web检索的基础上,建立更为广泛和容易使用的中文语料库。当然,所有建立中文语料库的方式都需要资金、人力和场地,因此需要国家预算投入更多的资金。而保护中文语料原作...