文档脱敏技术在信贷评审业务上的应用
对于身份证号码、股票代码等敏感要素,工行软开中心设计了一系列精确的正则表达式来提高检出率。首先利用Libreoffice框架将doc、wps、docm等各种格式的文档,统一转换为docx格式进行处理;其次,基于docx的XML结构,将文档进行深度结构化拆分,对于拆分出来的每个小部分(chunk),使用正则匹配技术查找符合特定规则的模式;最后,输出已...
开源软件丨常用正则表达式合集与工具 any-rule
(?:\.[0-9]{1,2})?$)|(?:^(?:0){1}$)|(?:^[0-9]\.[0-9](?:[0-9])?$)/银行卡号(10到30位,覆盖对公/私账户,参考微信支付)/^[1-9]\d{9,29}$/中文姓名/^(?:[\u4e00-\u9fa5·]{2,16})$/英文姓名/(^[a-zA-Z]{1}[a-zA-Z\s]{0,20}[a-zA-Z]{1}$)/车牌...
风控系统的建设,具体怎么做?
正则表达式匹配主要用于应对”规则对抗”的情况,例如将识别到的”黄赌毒”写成”黄|赌|毒”,或者写成”黄du毒”,以混淆的方式绕过识别。词库的内容来源包括相关部门的要求和业务部门的整理,可以涵盖各种类型的风险内容。针对图片、语音和视频等内容类型,我们可以通过判断它们是否”高度相似”或者”完全一致”来标记为”...
数据分类对企业敏感数据保护的重要性
对于包含关键字或其他特定字母排列的文件,这些文件被认为是敏感数据(如姓名)的标志,可使用关键字搜索功能有效过滤大量数据并自动查找相关文档。正则表达式在数据分类中,正则表达式是一个强大的实用方式,可用于识别某些敏感文档模式。可以识别诸如信用卡号或身份证号之类的敏感信息。文件扩展名文档也可以根据文件扩展名...
智慧安全 解析网康下一代防火墙NGFW
网康NGFW通过领先的内容扫描技术对应用中传输的内容和文件进行关键信息监测,如身份证号、银行卡号和手机号码等,并且允许用户通过灵活的正则表达式对关键信息特征进行定义,防止敏感数据泄漏。网康NGFW可以对指定类型文件的传输进行阻断,支持近百种常见的文件类型。文件类型识别采用特征匹配方式,修改文件后缀仍可准确识别。
万字保姆级Pandas核心知识操作大全
df["电话号码"].str.slice_replace(4,8,"*"*4)11.replace将指定位置的字符,替换为给定的字符串df["身高"].str.replace(":","-")12.replace将指定位置的字符,替换为给定的字符串(接受正则表达式)replace中传入正则表达式,才叫好用;先不要管下面这个案例有没有用,你只需要知道,使用正则做数据清...