汉字光标准化和数字化就花了一百多年,它能在 AI 时代存续吗丨晚点...
他按照字的笔顺排列组成该字的各个偏旁的次序,使用每个偏旁的第一个拼音字母组成字的代码。比如“路”可分为4个偏旁:口(kou)、止(zhi)、攵(pu)和口(kou)。每个偏旁的首字母组合后就是“路”的代码“KZPK”。代码限定为四个字母,所以如果拆字后只有三个偏旁,则第四个字母表示这个字的最后一笔,...
偶感:为什么古代拼音文字不可能被破译
例如:ma,这两个拉丁字母组词,什么意思?在汉语中,这个词它至少可以包括三种语义:1、马,2、骂,3、妈。这个词读音与上述三种语义没有任何直接关系。也就是说,当你看到这两个拉丁字母:ma,你无法辨识它是什么语义。5)在其他拼音语言中,对这两个拉丁字母的组构,法国人会有一种读音,德国人会有一种读音,意大利...
汉字数字化是建设数字中国的基础设施之一
位于第一第二个字母ba和两个数字字母04,01,它们与汉语拼音的发音相同;“吧”字的第三个字母的b及04,是个单义字母表“口”,拔字的第三个字母c及05表“扌手”,芭字的第三个字母e及07表“草艹廾”等。01是a的数字字母,a的序号是十进制数01,转换为十六进制数为数字字母01,同理b,c,e的数字字母分别为04...
我们试着让5个国内AI大模型教会大家Token的秘密,看看你能学会吗
拼写和发音:英文的拼写和发音相对简单,这使得分词过程更容易自动化。而在一些其他语言中,如阿拉伯语、希腊语和泰语,由于字母和发音之间的关系较为复杂,分词过程可能更为困难。语法结构:英文的语法结构相对简单,主要由主谓宾组成。而其他语言,如俄语、波兰语和土耳其语,则拥有更复杂的语法结构,包括多重主谓宾结构和其...
汉语还是英语?人类文明的终极选择
看起来“迂腐老旧”的汉字太顽固,“高效先进”的字母文字无法撼动。后来真正实现中华民族大规模脱盲的,是简体字。而且中华文明海纳百川,拉丁文居然也在汉字系统里派上了用场,新中国研究出了应用拉丁文的汉语拼音。简体字+汉语拼音,成为了脱盲大杀器新中国成立仅仅用了15年,全国15岁以上的文盲率就从80%下降到了...
西方人学汉语的误区,一误400年
比如今天汉语拼音的“SH”音节,既不同于葡萄牙的“X”,也不同于利玛窦的“SC”,黄嘉略是“CH”;今天汉语拼音中的“T”,利玛窦是“Tt”,黄嘉略也是“Tt”,已经与今天的汉语拼音十分接近(www.e993.com)2024年11月16日。同时他按照拉丁语的字母顺序编排汉字,并在释义过程中尽量多地加进了中国的历史、地理、科举、礼仪、儒教等知识,这是真正站...
六年级 | 语文第1-4单元:“知识点”整理,收藏!(上册)
幽(半包围结构,笔顺:先中间的竖,再写两个幺,最后是竖折和竖)案薄蕾怨(上下结构)雅拙缀糊襟恍(左右结构)(4)生词宅院幽雅伏案浑浊眼帘参差单薄照耀花蕾衣襟恍然愁怨顺心平淡模糊(móhu)文思梦想迷蒙(5)特点①作者采用了虚实结合的手法,实写丁香花的形象,虚写寄托于丁香花的...