守护汉字 天翼云在行动 TeleDB 数据库获 GB 18030 最高级别认证
近日,由工信部电子工业标准化研究院主办的GB18030《信息技术中文编码字符集》应用推广大会暨「汉字守护计划」成果发布会召开,工信部信发司、教育部语言文字信息管理司、电子标准研究院等多部委领导出席。发布会现场,天翼云TeleDB数据库通过强制性国家标准GB18030-2022并获最高级(3级)认证证书。汉字信息化...
技术实践|数据迁移中GBK转UTF8字符集问题分析
UTF-8兼容ASCII字符集,可以表示所有ASCII字符,因此它是广泛使用的字符集编码方案。2.数据迁移背景介绍早期的数据仓库字符集一般都是GBK,而现在的数据仓库都使用UTF8字符集,所以字符集转换是迁移过程中最关键的一个步骤。正常情况下如果源数据库没有乱码,那么字符集转换不会出现问题,GBK可以正常转换为UTF8。但如果...
业内首个古彝文编码“大字典”发布,为古文字打造“身份证”
近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。校企合力...
合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大...
近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。校企合力,把...
...信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典”
近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。
汽车零部件的统一编码与标识 国家标准将正式实施
c)编码字符集与GB/T15425中GS1-128条码字符集相同,且不宜采用I、O、i、o等字母(www.e993.com)2024年10月14日。对于汽车零部件的统一编码需要依照GB/T16986-2009和GB/T15425-2014的具体要求进行编制。GB/T16986-2009主要是说明了应用标识符AI的定义及其对应用的数据编码的结构等,应用标识符及其对应的数据编码的一维码条码符号应采用...
陈力:数字人文视域下的古籍数字化与古典知识库建设问题
二三十年前,计算机所使用的汉字编码字符集收录的字数偏少是困扰古籍数字化的主要因素。1980年颁布的国家标准GB2312收录的汉字仅6763个,1993年颁布的GB13000.1-93(GBK)也只收录了21003个汉字,2000年3月颁布的GB18030收录了27484个汉字。到2005年颁布的GB18030-2005,已收录汉字70244个,到2021年9月,Unicode14.0版正式...
vi/vim配置篇:乱码产生的原因及解决|vim|乱码|二进制|字符集|配置...
常用字符编码ASCII编码是目前计算机中常用的最广泛地字符集及其编码。ISO-8859-1可以表示的是西欧语言,看起来很单一,但是由于是单字节编码,与计算机最基础的表示单位一致,所以在很多时候,仍旧使用ISO-8859-1编码来表示,而且在很多协议上默认使用这种编码。Unicode编码(统一码),通常所说的UTF-8就是Unicode编码的...
中文文本的地名解析方法研究
系统分5个任务模块:地名识别模型构建、地名词典构建、基于篇章的地名识别、局部模糊地理实体匹配和基于认知显著度的文本地理编码。在地名概念决策后,CRFs地名识别模型通过语料库训练获取,动态地名关系数据库通过地名关系抽取获得,地名词典通过对国家基础地理数据和GIS服务商提供的数据进行结构化处理获得。文本输入后,...
汉信码:中国完全自主知识产权的二维码
汉信码最多可以表示7829个数字、4350个ASCII字符、2174个汉字、3262个8位字节信息,支持照片、指纹、掌纹、签字、声音、文字等数字化信息的编码。码制扩展性强作为一种自主研发的二维码码制,因为我国自主掌握汉信码的核心技术和专利,面对不同的大规模应用和行业应用,可以方便地进行汉信码技术的扩展和升级,例如,为了...