...旨在通过中文分词技术、自然语言处理技术、全文检索和信息提取...
公司回答表示,您好,人工智能应用技术是我司当前阶段的研发重点之一,旨在通过中文分词技术、自然语言处理技术、全文检索和信息提取技术,提升对存储于PDF、Word、Rtf、Excel、Txt、CSV中的半结构化和非结构化数据的处理与分析能力,通过前向神经网络、自组织神经网络等神经网络技术,结合机器学习,研究数据的自动化建模技术,降...
小米取得中文文本分词方法、装置及存储介质专利
金融界2024年10月16日消息,国家知识产权局信息显示,北京小米移动软件有限公司、北京小米松果电子有限公司取得一项名为“中文文本分词方法、装置及存储介质”的专利,授权公告号CN112989819B,申请日期为2021年3月。本文源自:金融界作者:情报员
翔宇医疗申请基于中文分词的VTE量表自动评估专利,可有效提高VTE...
金融界2024年2月20日消息,据国家知识产权局公告,河南翔宇医疗设备股份有限公司申请一项名为“一种基于中文分词的VTE量表自动评估的方法和系统“,公开号CN117577320A,申请日期为2023年11月。专利摘要显示,本发明涉及自动评估方法领域,更具体地,本发明涉及一种基于中文分词的VTE量表自动评估的方法和系统,包括:获取患者...
金现代取得深度学习中文错字校正专利,实现中文文本的高精度分词
本发明实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。
破解大模型中文语料不足问题,并非毫无办法 | 新京报专栏
01中国人工智能大模型产业发展面临高质量中文语料数据短缺问题,限制了技术创新应用。02目前,全球一流的大模型都是靠英文语料库来训练和生成大模型,如ChatGPT训练数据中,中文语料比重不足千分之一,而英文语料占比超过92.6%。03然而,中国国内中文语料极为丰富,如公开出版的中文报纸、期刊等,但数据挖掘不足,优质数据...
佳都科技申请一种中文文本关键词提取、重要度评估方法及处理终端...
专利摘要显示,本发明公开了一种中文文本关键词提取、重要度评估方法及处理终端,关键词提取方法包括:获取目标中文文本;对目标中文文本内的语句进行分词,得到初始分词集合;预设一个窗口,窗口大小定义为w,以窗口大小为w的窗口对初始分词集合进行提取,从初始分词集合中的第一个分词开始,按照顺序连续w个的分词构成一个关键词...
投资者提问:尊敬的董秘,您好,请问贵公司及其子公司在分词(中文...
尊敬的董秘,您好,请问贵公司及其子公司在分词(中文语料库)有没有技术和数据积累?董秘回答(岭南股份SZ002717):尊敬的投资者,您好。分词是以电子计算机为载体承载语言知识的基础资源,是AI技术的应用领域。公司与腾讯在AI、云计算、大数据等领域已开展全方位的战略合作。感谢您对公司的关注。
AI不会断句?中文分词新模型帮它进步
一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”“民生”等歧义词。二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。这类问题在跨领域分词任务中尤其明显。
中文分词最佳记录刷新了,两大模型分别解决中文分词及词性标注问题...
解决“噪音”问题《JointChineseWordSegmentationandPart-of-speechTaggingviaTwo-wayAttentionsofAuto-analyzedKnowledge》论文提供了一种基于双通道注意力机制的分词及词性标注模型。中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词...
NLP入门干货:手把手教你3种中文规则分词方法
中文分词是让计算机自动识别出句子中的词,然后在词间加入边界标记符。这个过程看似简单,然而实践起来要复杂得多,主要困难在于分词歧义。下面以NLP分词的经典场景为例进行说明,短语“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”呢?对于这个问题,机器很难处理。