北京市大模型应用全面开花,文心、文修等18个大模型典型案例出炉
经多次验证,以一篇140字的微博稿件为例,人工审核至少需要33.6秒,而文修只需要0.8秒即可完成,用时仅为人工审核的1/40。除此之外,文修在中文拼写勘误、语法纠正任务上,均实现了各类校对项目F1值的全面SOTA(当前业界最优)。目前,文修大语言模型已经落地“蜜度校对通”平台,并提供网页版、office插件和客户...
爱奇艺开源SOTA高性能中文拼写检查工具FASPell
同时爱奇艺开源了相关数据与代码程序,根据介绍,这个称为“FASPell”的项目是一个简繁体中文拼写检查工具,它可以轻松完成对任何一种中文文本的拼写检查,包括简体中文文本、繁体中文文本、人工输入错误与OCR结果等,同时它还拥有目前同类型工具最先进的性能(错误检出率与纠错率)。爱奇艺介绍该方案已经达到SOTA,即“St...
爱奇艺发布 FASPell: 产学界最强的简繁中文拼写检查工具
与以前的SOTA模型相比,新范式使得我们的拼写检查器可以更快地进行计算,易于通用于简体或繁体、人类或机器产生的各类场景下的中文文本,结构更简单,错误检测和纠正性能更强大。这四点成就,是因为新的范式规避了两个瓶颈。第一,DAE通过利用无监督预训练方法(如BERT,XLNet,MASS等),减少了监督学习所需的中文拼写检查数据...
NLP领域国际顶会ACL 2021收录结果公布 百度14篇论文上榜
9、MLM-phonetics:基于语音语义的预训练纠错模型CorrectingChineseSpellingErrorswithPhoneticPre-training在日常工作中经常会出现拼写错误,而错误传递会导致下游任务(如检索、翻译、理解等)的效果下降,因此文本拼写纠错非常重要。对于中文来说,常用的输入方式有拼音输入、语音输入等,使得拼写错误大多来自于对近音...
百度技术亮相NLP顶会ACL 聚焦跨模态预训练、语言理解、人机对话等...
两个模块共享以MLM-phonetics初始化的编码器,并在端到端的模型中被同时优化。我们的模型在SIGHAN中文纠错测试集上达到SOTA,这项技术可应用于文本写作纠错、语音识别结果纠错、翻译译前纠错等场景。10、PAIR:基于以段落为中心的相似度关系提升稠密段落检索
百度NLP技术亮相国际顶会ACL 2021, 14篇论文概览,速戳
给定一段文本,检测模块首先检查该文本中的错字,然后以每个字的错误概率为权重融合原始字符与其拼音的编码,之后纠错模块基于新的编码进行纠错(www.e993.com)2024年11月7日。两个模块共享以MLM-phonetics初始化的编码器,并在端到端的模型中被同时优化。我们的模型在SIGHAN中文纠错测试集上达到SOTA,这项技术可应用于文本写作纠错、语音识别结果纠错、...
百分点认知智能实验室:智能校对的技术原理和实践
传统的中文拼写纠错主要存在两个问题,纠错平行语料不足和混淆集不够充分。FASPell提出了一种解决中文拼写错误的新范式,抛弃了传统的混淆集转而训练了一个以BERT为基础的深度降噪编码器DAE(denoisingautoencoder)和以置信度-字音字形相似度为基础的解码器CSD(confidence-similaritydecoder),可以有效缓解以上两点不足。模...