数据清洗的概念、常见问题及实践方法
c.利用不同指标数据推算结果填充,例如用身份证信息可以揭示年龄等信息。4.重新获得数据对于某些缺失率高,且缺失值被认为非常重要的数据,我们可以与业务人员合作,探讨其他渠道重新获得数据的可能性,例如某些数据可能可以通过另一个数据库或API得到。二、数据值不匹配在处理数据值不匹配问题时,需要采用一些常规的清...
开源软件丨常用正则表达式合集与工具 any-rule
:\/\/[a-zA-Z\d]+=$/ed2k链接(宽松匹配)/^ed2k:\/\/\|file\|.+\|\/$/磁力链接(宽松匹配)/^magnet:\?xt=urn:btih:[0-9a-fA-F]{40,}.*$/子网掩码/^(?:\d{1,2}|1\d\d|2[0-4]\d|25[0-5])(?:\.(?:\d{1,2}|1\d\d|2[0-4]\d|25[0-5])){3}$/linux"隐藏文件"...
风控系统的建设,具体怎么做?
对于文本内容,我们可以通过自定义词库进行风险过滤,采用文本匹配或正则表达式匹配的方式来识别风险内容。正则表达式匹配主要用于应对”规则对抗”的情况,例如将识别到的”黄赌毒”写成”黄|赌|毒”,或者写成”黄du毒”,以混淆的方式绕过识别。词库的内容来源包括相关部门的要求和业务部门的整理,可以涵盖各种类型的风险内容。
长安汽车:构建全资产安全治理平台,夯实汽车行业数据安全基底
·正则表达式:针对正则表达式技术,加入数据标识符,精确匹配身份证、银行卡号、社会保障号等有技术规范内容。·人工智能:运用大数据和机器学习,通过智能化算法,对敏感数据进行快速准确的识别。·自定义特征:根据长安汽车现状,结合国家及行业法律法规要求,自定义敏感数据规则,完成敏感数据识别。有效解决了长安汽车以下...
优质中文NLP资源集合,做项目一定用得到!
7.抽取身份证号的正则表达式IDCards_pattern=r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'IDs=re.findall(IDCards_pattern,text,flags=0)8.中文缩写库httpsgithub/zhangyics/Chinese-abbreviation-dataset/blob/master/...