八千年的凝视——汉字中国文物特展
从写法上看,四个符号体现出先横后竖、先左后右、先上后下的特点,所以,这四个符号确实更像是文字学意义上的“字”。另外,四个符号虽然不是完全水平线意义上的整齐排列,但也大体集中整齐,想来,如果不是先民的无意识涂鸦行为,那么这些符号就应该被视为词组或短句,是一种清晰的叙事刻符,有点儿类似婴儿在哇哇吐字...
女性没权学习汉字,她们偷偷造了一种文字
所谓“异体字”是指一个基本字之外的写法,字音和字义相同但字形不同。“女书基本字396个,每人用字500左右(包括异体字),就可以完整记录当地土话,‘以少记多’正是女书的特点。”赵丽明表示。武汉大学宗教学系教授宫哲兵认为一个会女书的妇女常用字大约在500-800个。“考虑到女书使用的主体并非知识女性,这个识字...
保存汉字的百年努力,能让它留在AI时代吗?
打字机键盘的64个键表示汉字的偏旁,8个数字键用来选字,一共能打约9万个汉字。林语堂是中国少数成功的双语作家,出版了几十本中英文书,不止一次获得诺贝尔文学奖提名。但对他来说,中文打字机的发明和应用是其一生的梦想。为了研发,他用尽了自己畅销书的版税,负债高达12万美元(相当于现在的140万美元...
汉字光标准化和数字化就花了一百多年,它能在 AI 时代存续吗
打字机键盘的64个键表示汉字的偏旁,8个数字键用来选字,一共能打约9万个汉字。林语堂是中国少数成功的双语作家,出版了几十本中英文书,不止一次获得诺贝尔文学奖提名。但对他来说,中文打字机的发明和应用是其一生的梦想。为了研发,他用尽了自己畅销书的版税,负债高达12万美元(相当于现在的140万美元...
ACL 2024公布7篇最佳论文,华中科技大学本科生一作成果获奖
汉字「宗」的对比分析为了解决这一挑战,该研究引入了局部结构采样(LSS)概念,帮助扩散模型学习如何将甲骨文的局部部首结构映射到相应的现代汉字之中,从而增强模型在古代文字与现代汉字之间的连接能力。研究还发现,尽管从古代汉字到现代汉字存在相当大的结构演变,但某些局部结构得到了保留。
自主知识体系视域下的标识性概念建构
从词汇来看,以汉字字符作为衡量标准,一个字的词汇尽管简洁,但能表达的涵义却有限(www.e993.com)2024年11月7日。从中文角度衡量,2—4个字的词汇更容易为读者所接受,既可以表达对象的边界和属性,又符合简洁性要求。当然,词汇的简洁度与内涵的准确度通常也呈负相关关系:词汇越简洁,内涵的准确度往往越低;反之,则有可能越准确。因此,词汇的选择...
大模型算力的「热」与10亿万卡成本的「冷」思考
而AI原生应用爆发后的效果,以ChatGPT为例,在ChatGPT(GPT3.5和GPT4)下每个单词大概消耗1.12个token,官方计费标准为$0.002/1ktokens,在英语中“一个token通常对应大约4个字符”,而1个汉字大致是2~2.5个token。1000tokens大概是750单词。那也就是说,大概2美元可以问100万个token,相...
被嫌弃的BP机的一生|手机|信号|寻呼机|传呼机|寻呼台|bp机|卫星...
1991年,山东浪潮公司推出了寻呼机中文显示解决方案——“传呼通信用汉字信息表示及其编码字符集”,从而首次实现了对国际品牌的逆向技术输出,并且催生出了一大批大屏汉显机型,也让过去普遍售价在千元以上的数字单显机一夜白菜价。国产汉显寻呼机的起点——波导BCP1688中文信息机...
增录1.7万个生僻汉字!中文字符数字世界“身份证”新国标发布
新版《信息技术中文编码字符集》强制性国家标准将于2023年8月1日正式实施,共收录汉字87887个,比上一版增加录入了1.7万余个生僻汉字,不仅收录国务院发布的《通用规范汉字表》全部汉字,还可覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字,能够满足各类使用需求,为传承中华文化、增强中文信息...
增加1.7万余个生僻汉字,新国标中文编码字符集将于今年8月实施
据悉,强制性国家标准GB18030-2022《信息技术中文编码字符集》于去年7月发布,将于今年8月1日正式实施,标准共收录汉字及部首88115个,比上一版(2005版)增加了1.7万余个生僻汉字,不仅收录国务院发布的《通用规范汉字表》全部汉字,还可覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字,能够满足...