汉彝文字:中华文化同根同源的历史见证
文字特征、字体结构、用字方法等方面的相同之处,是汉彝文字同源的力证;汉字的“六书”造字法是表意文字的创制典范,在彝文中也有印证。汉彝文字共同书写了伟大祖国的光辉历史,成为中华文化同根同源的历史见证。源远流长:仅存的两种世界古文字学术界公认的世界六大古文字为苏美尔楔形文、埃及圣书文、印度哈拉般...
《奢香夫人》背后的古彝族文字如何传承?合合信息、上海大学、华南...
当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的合计,古彝文和现在仍然使用的各地的彝文,总数多达87046字,对如此庞大的字符集进行分类非常困难。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字特别丰富,字符...
合合信息联合高校发布古彝文“大字典”,AI帮助古文字实现数字化
古彝文典籍编码、识别过程(图源:西南彝志)据了解,本次构建古彝文基础编码数据库建设中的学术性、技术性难点主要有两个方面:一方面是文字符集庞大,且缺乏成熟的手写样本库,异体字、变体字丰富,字符和释义呈“一对多、多对一”的常态;其次是文字大多被记录在岩书、布书、竹简等不利于潮湿环境储存的材质上,造...
用AI“抢救”濒危古文字 合合信息发布古彝文基础编码“大字典”
近期,合合信息联合上海大学、华南理工大学发布古彝文基础编码数据库,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码。“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,古彝文多达87046字。古彝文作为一门“濒临”消亡的语言,其典籍的数字化之路也面...
业内首个古彝文编码“大字典”发布,AI为古文字打造“身份证”
再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。在古彝文语料收集过程中,研究团队通过合合信息旗下的“扫描全能王”来进行古籍图片采集。其“智能高清滤镜...
中国古文字书法图鉴:彝文、古壮字、白文
用彝文写成的历史文献浩如烟海,内容涉及政治、经济、历史、宗教、天文历法、文学艺术等(www.e993.com)2024年9月19日。古壮字古壮字是壮族古老的文字,是壮汉文化交流的产物。最早见于公元682年的广西上林县唐代摩崖石刻《六合坚固大宅颂》和公元697年的《智城碑》。两碑都是壮族上层的重要文献,说明唐初古壮字已经得到包括民族上层的认可。
字数多于《康熙字典》,合合信息智能文字识别赋能上海大学构建古...
古彝文与汉字并非一一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某...
合合信息与上大社会学院联合用AI技术挑战古彝文识别难关
“汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。”合合信息智能技术平台事业部副总经理郭丰俊告诉记者,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象;再加上古彝文从未经过统一,异体字、变体字众多,给文字定位造成挑战。
深度学习碰上古文献,西南大学提出基于CNN的古彝文识别方法
缺乏成熟的手写样本库。手写样本库是古彝文识别成功的关键因素,直接决定着识别的效果。当前的古彝文研究仍然主要集中在对古彝文文献的整理,没有人专门对古彝文识别进行研究,找不到可用的古彝文手写样本库。字符集庞大。古彝文拥有庞大的字符集,2004年出版的《滇川黔桂彝文字集》就包含着87000多个字[8]。对如...
中文八万多个字,有90%都不认识
共收录87887个汉字,全面覆盖了《通用规范汉字表》的全部汉字,同时涵盖我国10种少数民族文种,包含蒙古文、藏文、维哈柯文、朝鲜文、德宏傣文、彝文、傈僳文、滇东北苗文、西双版纳新傣文、西双版纳老傣文;另一方面,从条文强制改为全文强制,为满足不同用字需求,新版标准设立三档实现级别,其中级别3是该标准的最高实现...