自媒体平台中医药多模态语料库的构建
3)语料的转写与标注构建语料库的核心步骤在于对广泛的视频与音频材料进行详尽的转录与标注工作。本语料库选用了高效可靠的迅捷语音转文字软件作为语音文件转写的工具。标注过程则是指运用多种标签对语料库中文本的多项特性进行系统性的标记,这些特性包括但不限于元信息标注、词性标注、句法标注、语义标注、语用标注、...
魏斌|法律大语言模型的司法应用及其规范
大语言模型首先对使用者的检索需求问题进行分词、词性标注和句法解析,进而识别文本中的关键实体(如案由、当事人和法律法规等)及其关系。随后,通过信息检索技术来创建对案件标题、关键词、引用法律条款等的索引,再采用布尔搜索或向量搜索等算法在案例数据库中执行搜索。大语言模型还可以根据新的检索需求,通过提示词数据分...
语言学 | 促进口译的人机协同
具体而言,应加强以下研究:突破目前三个任务分离模式,实现端到端实时语音翻译;多模态信息加工;即兴口语的高容错(模糊)性理解;理解与转换中的语用信息加工;高质量、多特征训练语料库研制;大规模、市场化人机同传应用对比;多场景人机协同路径和机制探索与人机协同模式构建。(本文系国家社科基金重点项目“基于大型语料库的...
ACL 2024奖项:华科大破译甲骨文最佳论文之一、GloVe时间检验奖
尽管发现了数千份铭文,但仍有大量的甲骨文未被破译,从而为这一古老的语言蒙上了一层神秘的面纱。现代AI技术的出现为甲骨文破译开辟了新的领域,对严重依赖大型文本语料库的传统NLP方法提出了挑战。本文介绍了一种采用图像生成技术的新方法,开发出了针对甲骨文破译优化的扩散模型OracleBoneScriptDecipher(...
百度新技术:人性化播报新闻成现实
百度语音技术部通过大量实验探索,采用多层双向LSTM-RNN的深度神经网络建模方式,在整句层面学习韵律停顿和声学参数的变化轨迹,自动学习词、短语甚至整句范围内的依赖关系,大大丰富了情感音库的建模能力。强大的建模能力让百度对语料信息标注的要求更加自由宽泛。
期刊目录 |《外语电化教学》2024年第3期
本研究聚焦AD老人话语使用当下亲历与认知的特质,根据前期基于AD患者多模态语料库的研究发现,构建针对AD患者语言能力的多模态研究框架(www.e993.com)2024年9月23日。通过贴真建模,细化AD亲历者当下鲜活体验及亲历过程的模型内容,构建四大层级多模态标注体系,从语言信息层、副语言信息层、身势信息层及超语言信息层描述AD老年人话语活动复杂的动态系统;...
“译”语知洲争做多模态语料垂类模型首创先锋
“译”语知洲团队运用独特的数据获取和高精度的处理方式,对不同语种的实施差异化的数据管理,利用人机协同模式进行数据分析与标注,保证语料库的高价值及数据的可靠性和应用的高效性。另外,团队还应用先进的人工智能算法设计和语言学脑机接口技术开发了一种基于句法和语法学原理的树状图算法,使智能语言模型更符合人类认知...
开卷考——AI时代,译者向何处去? | 周玮琪
这与开卷考试颇为神似:AI工具论者往往将AI翻译视作思维的外挂语料库,需要时从中调取,省时省力,正如考场上随意查阅书本。但AI翻译是场无比灵活的开卷考试,讲求融会贯通。如今人人有了语料库,若不看单词储量、句法变化,只计较思维高下,考些文章分析或自由创作,那么,那些从来只擅长以"听说读写记"绑架知识的学生便要...
北大有个神奇的专业:同级只有她从开学坚持到了毕业
她从大二就参与到计算语言所的一些科研工作中,其中有两项工作分别发表在自然语言处理领域很有影响力的两个国际会议上:一项工作是探索了汉语中介语语料库的语义角色自动标注;另一项工作是提出一种新的方法,将人工构建的关于汉语语素的语言学知识库跟深度神经网络中的词向量表示结合起来,改进了词向量表示在词义相似度计...
专访上海大学倪兰教授:语言学与手语识别技术的融合突破,解锁交流...
倪兰:语料库建设是语言学的一种重要研究方法。对于语言学研究者来说,语料库是进行语言研究的重要基础,是观察语言现象的重要来源。手语语言学研究的核心目标是通过语料来分析手语内部结构,建设手语语料库是我们进行研究的基础工作。境外很多研究机构,包括香港、台湾地区都有公开发布的手语数据库,但中国大陆目前还没有公开...