被遗忘的中文键盘史
在这个字符集中,423个最常见的汉字可以通过1次击键完成;2930个汉字可以通过2次击键完成;另外3106个汉字可以通过3次击键完成;剩下的823个汉字需要4到5次击键。北京大学团队的键盘只是那个时代众多中等尺寸设计中的一种。IBM开发了用于中文和日文的256键键盘。这款20世纪70年代的键盘设计让人想起了IPX系统,它包括...
专访85岁冯志伟教授:一个北大中文系学生的机器翻译之梦
汉字的熵大于一个字节(8比特),因此,汉字不能采用单字节编码,而应当采用多八位的双字节编码。这是中国人第一次知道了自己文字的信息熵。汉字信息熵的测定对于汉字编码、通信计算、自然语言处理技术具有重要意义,也是中文信息处理中的一项基础性研究。冯志伟随即撰写论文《汉字的熵》。遗憾的是,当时大部分学术期刊...
人工智能的负效应:没有大语言模型的语种未来会消亡
前者涵盖约20种语言,包括英语、中文、西班牙语、法语、德语、日语、俄语、葡萄牙语、阿拉伯语、印地语、意大利语、韩语、荷兰语、土耳其语、波斯语、瑞典语、波兰语、印度尼西亚语、越南语、希伯来语。这些高资源语言有着丰富的语言资源,例如广泛的文本、用于机器翻译的平行语料库、综合词汇词典、句法注释和用于监督学习...
日本制定汉字编码国际标准 将可以处理6万个汉字
日语汉字“边”与其异体字(来源:信息处理推进机构网站)人民网东京12月25日电(许永新)25日,日本信息处理推进机构(IPA)发布消息称已经完成了约6万个汉字的国际标准化工作,这些汉字可以进行数据处理。据此,此前分别属于多个标准的常用汉字之外的汉字,将可以使用统一编码进行处理,能够覆盖此前难以进行数据处理的人名用异体...
中国汉字和日本汉字有什么不一样?
JIS汉字编码*中出现的「妛」就是其中的代表。原本有个地名,当中的字是「山」和「女」的合并字,但印刷时由于「山」和「女」中间的部分有些脏了,就被误认成了一个点被印刷了出来,成了幽灵文字。注:JIS汉字编码指日本工业规格制定的汉字等文字的字符编码△汉检汉字博物馆·图书馆举办的「今年的汉字展」...
这些中文输入法90后保证你听都没听过
区位码1980年,我国颁布了汉字编码的国标:GB2312-80《信息交换用汉字编码字符集》基本集,用四个数字来表示一个汉字(www.e993.com)2024年12月19日。如“2901”代表“健”字,“4582”代表“万”字,“8150”代表“楮”字,用区们码还可以表示特殊符号,比如“0189”代表“※”(符号),“0528”代表“ゼ”(日本语),“0711”代表“Й”(俄文)...
民族学考研:哈萨克族的“叼羊”与“刁羊”
这些在汉字的编码过程中又有着交叉互用,使得汉字编码体系庞杂繁琐,这也形成了汉字的独特的特点“一个汉字代表一个符号,每一个汉字都能够表示一个意思”。“刁”字的造字编码属于以形表意编码中的象形字编码中的象事字。象事字既是指事字,有的偏重于“指”,有的偏重于“事”,“刁”字便是偏重于“事”的...
一个热搜两幅面孔,娱乐圈的“高仿热搜”是咋骗你的?
看上去和中文是同一个字,其实编码完全不同|Wikipedia这个编码方式兼顾了各种语言使用者的习惯,但带来的问题也显而易见:在电脑眼里,只要编码不同,系统就会认为是两个完全不一样的字,而在人类使用者看来,这些字符的外观完全相同。这么大的漏洞,骗子当然不会白白放过。一种名叫同形异义词攻击(IDNhomographat...