人工智能行业专题报告:从RNN到ChatGPT,大模型的发展与应用
NLP技术中的词嵌入用来将文本序列的基本单元“词”映射为机器能够理解的“词向量”。最简单的词向量表示方法是独热向量(one-hotvector)。假设词典中不同词的数量(词典大小)为N,每个词对应一个从0到N-1的不同整数(索引)。词之间的相似度。1.3.2.6.基于位置的前馈神经网络除了注意力层之外,T...
pyhanlp 中文词性标注与分词简介
也是最短路分词,HanLP最短路求解采用Viterbi算法2.双数组trie树(dat):极速词典分词,千万字符每秒(可能无法获取词性,此处取决于你的词典)3.条件随机场(crf):分词、词性标注与命名实体识别精度都较高,适合要求较高的NLP任务4.感知机(perceptron):分词、词性标注与命名实体识别,支持在线学习5.N最短路(nsh...
NLP 教程:词性标注、依存分析和命名实体识别解析与应用
其中一个例子就是词语的词性:名词表示人物,地点或事物;动词表示动作或事件的发生;形容词则用以描述名词。利用这些属性,可以很方便地统计一段文本内最常见的名词,动词和形容词,从而创建出一份摘要。利用spaCy,我们可以对一段文本进行词条化,从而得到每个词条的词性属性。以下面的代码作为示例应用程序,我们对之前的段落...
#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善...
黄萱菁:是的,FudanNLP的话主要是我的同事邱锡鹏带着我们一些研究生在做,它早期采用机器学习的方法做基础的自然语言处理,比如分词、词性标注、句法分析、实体提取,我们最近基本上不太开发了,现在开发的下一版叫FastNLP,是主要采用深度学习的方法来做的自然语言处理基础工具。FudanNLP不再更新图源:httpsgithub.co...
掘金数字上的中国:ChatGPT中国产业链手册
第一层是“词分析(WordAnalysis)”。在词分析层面,计算机需要做三方面任务。一是词语划分,也就是将一句话划分为不同的词语,比如说“今天我要吃饭”是一句话,但AI需要将这句话拆分为“今天”、“我”、“要”、“吃饭”四个词语分别分析;二是发掘新词,因为一门自然语言无时无刻不在创造新词语,包括我们常见的...
掘金数字上的中国:ChatGPT中国产业链手册
第一层是“词分析(WordAnalysis)”(www.e993.com)2024年7月29日。在词分析层面,计算机需要做三方面任务。一是词语划分,也就是将一句话划分为不同的词语,比如说“今天我要吃饭”是一句话,但AI需要将这句话拆分为“今天”、“我”、“要”、“吃饭”四个词语分别分析;二是发掘新词,因为一门自然语言无时无刻不在创造新词语,包括我们常见的...
福布斯中国观察:中国下一代人工智能公司,不同的逻辑与20个人
其研究成果累计GoogleScholar引用超过16,000次(2023年2月统计);作为第一作者发表Transformer-XL和XLNet,对NLP领域产生重大影响,分别是ACL2019和NeurIPS2019最高引论文之一;主导开发的盘古NLP大模型获2021年世界人工智能大会"卓越人工智能引领者之星奖";曾入选2020年“2020福布斯中国30岁以下精英榜";曾效力于Google...
对微博新词汇的研究
亮瞎:一般是形容帖子楼上的内容太过夸张震撼(贬义),太亮了,让人承受不起。这既表现了对帖子内容的排斥,也体现了网友的态度,用经济、简洁的词语精准地表达了自己的看法。这样的微博新词汇还有很多,如躺枪、中国大妈、逗比、屌丝、团购、秒杀、房嫂等词的走红,因其新闻含量高、与时政相关,还由于其含义能精准地概...
高中文言文阅读高分技巧和满分答题秘诀,拿来吧你!
被动句主要有两大类型:一是有标志的被动句,即借助一些被动词来表示,二是无标志的被动句,又叫意念被动句。被动句是表示被动意义的句子。文言中,常常借助一些介词表示被动。1.用介词“于”“受……于……”表被动(“于”引出动作的主动者)。例如:则今之高爵显位,一旦抵罪,或脱身以逃,不能容于远近。(张...
欧阳江河谈长诗、诗歌史,以及《宿墨与量子男孩》
当时我认为自己在追求一种早于中文和汉语存在的语言,这可能是我个人的幻觉,这首诗也没有引领什么潮流,但它至少完整保留了我当初的这个幻觉,也证实了在流行的、抒情的、公共的中文以外可以有另一种中文。八十年代现在有些被浪漫化。确实,没有个性的“好诗”(它们的词汇、语法、情绪已经被反复写过)泛滥的情形,在...