“一字 20万”!探元计划征集“甲骨文ai破译”共创伙伴
“一字20万”!探元计划征集“甲骨文ai破译”共创伙伴7月5日,在世界人工智能大会上,“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别...
麒麟操作系统通过GB18030-2022最高级认证:超1.7万个生僻字随便写
麒麟操作系统通过GB18030-2022最高级认证:超1.7万个生僻字随便写8月1日,强制性国家标准GB18030-2022《信息技术中文编码字符集》正式实施!这一标准适用于具备中文信息处理、交换功能的软硬件产品,设置了三档实现级别,共收录汉字87887个,比上一版增收了1.7万余个生僻汉字。目前,麒麟软件旗下“银河麒麟”、“...
中国人掌握900汉字便能读书看报
7个。教育部语言文字信息管理司司长李宇明介绍说,调查表明汉语并不像外国人想象的那么难学。这些出现频率最高的汉字中,认识前581个汉字就可以覆盖日常用语的80%,一个人如果掌握一万多条词、900多个汉字,就可以阅读90%左右的出版物。覆盖率达到99%只需要2315个字。对外汉语教师缺口20万在国际汉语热中,对外汉语...
达摩院的扫地僧,两年“抄”了20万页古籍,专家期待的“游子”回家了
目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过该平台翻阅、检索古籍。“汉典重光”项目到底是怎么来的,背后藏着哪些黑科技,记者采访了阿里巴巴达摩院、浙江图书馆、浙江大学古籍研究所专家等,还原了这个与古籍做朋友项目背后的全过程。100多年前古籍流落海外1860年(清咸丰10年),清...
达摩院“扫地僧”2年“抄”了20万页古籍,助力流散海外中文古籍...
借助阿里达摩院的技术,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。据悉,达摩院AI对20万页古籍的识别准确率达到97.5%。如何“再现”20万页古籍因邦交、贸易、战乱等,历史上中国古籍时有出海,近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全...
阿里的“扫地僧” 2年“抄”了20万页古籍
首先,古籍文字的类别极其庞大(www.e993.com)2024年7月8日。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内。但是据估计,古籍文字多达几十万。为什么古籍上面有如此多的字?古籍上面每个字都有不同的写法。比如一个“郷”有各种写法。此外,还有字体的变化。在雕版印刷古籍中,即使是同一拓片在不同季节、气候...
卫斯说|作为一座“都城”,陶寺的主人只能是“唐尧”
在长江流域发现的与陶寺中期城址年代大体相当的屈家岭文化城址有6座,20万平方米至25万平方米的城址有3座,唯湖北天门石家河城址,南北长约1200米,东西最宽处1100米,面积约120万平方米。不用拿陶寺中期城址的面积和其所具备的功能与华北龙山文化时期诸多古城址相比较,就是拿陶寺文化早期小城的面积和其所具备的...
达摩院的“扫地僧” 两年“抄”了20万页古籍
5月18日,20万页古籍以数字化的方式回归了。当天,“汉典重光”平台在北京中国科技馆正式发布,通过先进的人工智能(AI)技术,一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地“汉典重光”古籍平台。目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过该平台...
微信十年100个常识
600个字符或600个汉字。----------语音限制最大5M,最长60min。----------视频限制最大20M。69上传至素材管理中的图片、语音可多次群发,没有有效期。70公众号头图尺寸比例是2.35:1,大概是900x383。
关于微信的100个知识点,存起来,您会用得上!
600个字符或600个汉字。----------语音限制最大5M,最长60min。----------视频限制最大20M。69上传至素材管理中的图片、语音可多次群发,没有有效期。70公众号头图尺寸比例是2.35:1,大概是900x383。