【高质量发展】江苏银行:向“新”而行!大模型助力数据治理提质增效
“在没有血缘分析工具的情况下,我们常常淹没在海量的SQL查询和数据变更中,很难评估数据表中字段的内容变化对上下游产生的影响,而如今,这一切变得清晰可控。”一位基层数据治理员工表示。大模型赋能的数据治理血缘分析工作,基于业内主流图结构向量数据库技术,结合成熟的抽象语法树分析算法与开源的血缘算法,为数据治理人...
腾讯音乐:统一搜索分析引擎,成本直降80%
在全文检索方面,Doris不仅支持普通的等值和范围(=,!=,>,>=,<,<=)查询加速,还支持文本字段的全文检索,包括中英文分词、多关键词检索(MATCH_ANY,MATCH_ALL)、短语检索(MATCH_PHRASE,MATCH_PHRASE_PREFIX,MATCH_PHRASE_REGEXP)、短语词距(slop)、多字段检索(MULTI_MATCH),其性能相较于传统数据库支持...
蔚来汽车 TiDB丨单表超 20 亿从 MySQL 到 TiDB 迁移思考与实践
2.时间维度跨度大:大多查询场景需要结合时间维度进行时间范围查询,通常要查询中过滤最近半年的数据,但也有可能需要查询历史数据。3.表结构复杂性:大型表初始包含20多亿条记录,拥有30多个字段,其中约10个字段需要与其他三个表进行联接查询。4.写入与同步延迟:部分数据库表的单表写入数据量巨大,导致主...
数据质量漫谈
完整性Completeness:完整性是指数据信息信息是否存在缺失的状况,常见数据表中行的缺失,字段的缺失,码值的缺失。比如虽然整体pv是正确的,但在某个维度下,只有部分打点,这就是存在完整性的问题。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的问题。常见统计sql:count(notnull)/count(...
汽车之家 x StarRocks:极速实时数据分析实践
数据量:维度表的原始数据量非常大,峰值数据达到33亿条/min,3万亿/天。并发量:异常检测平台调用,最高33w/min的调用峰值。VSApacheKylin在汽车之家内部ApacheKylin主要是面对固定查询的场景。主要都是一些特定的数据产品,还有一些日常的报表等。由于ApacheKylin是基于纯预聚算模型的,拿空间去换时间。所以在...
【案例】长安汽车:构建全资产安全治理平台,夯实汽车行业数据安全...
一、利用数据资产梳理系统粗粒度技术对长安汽车整体结构化及非结构化数据资产进行深度挖掘和扫描,一小时内共盘点出结构化数据库数十个和非结构化文件数百个(www.e993.com)2024年10月24日。二、利用细粒度技术对数十个数据库中其中两个数据库进行挖掘扫描,半小时左右共盘点出近近千个数据库表、数千个字段项,并对字段项中的数据进行了五个等级...
没有索引也能用SQL?深度解析 SLS Schema-on-Read 分析原理与应用
大数据技术的演进与SQL的回归随着互联网的飞速发展,传统的关系型数据库逐渐难以满足海量数据的存储和查询需求,Google的“三驾马车”(MapReduce、GFS、BigTable)论文的发布,正式揭开了大数据时代的序幕。GFS和MapReduce解决了数据大规模存储和计算的问题,只需要将大量普通的机器组织起来,就可以获得对海量数据的处理...
一条SQL 语句执行很慢的原因有哪些?
一条SQL大多数情况正常,偶尔才能出现很慢的情况,针对这种情况,我觉得这条SQL语句的书写本身是没什么问题的,而是其他原因导致的,那会是什么原因呢?1、数据库在刷新脏页我也无奈啊当我们要往数据库插入一条数据、或者要更新一条数据的时候,我们知道数据库会在内存中把对应字段的数据更新了,但是更新之后,这些更新...
从Clickhouse 到 Apache Doris:有赞业务场景下性能测试与迁移验证
该场景会面临大量高频的数据实时更新,同时查询体量较大、QPS较高,时常出现复杂SQL查询场景。商家实时分析报表:面向B端为商家提供相关实时报表分析查询,该场景特点是QPS比较高,商家可以选择不同的维度组合进行查询,对实时性和稳定性要求高。天网日志分析系统:为所有业务系统提供日志采集、消费、分析、存储、...
微服务接口设计原则
状态即数据。如果某一调用方的请求一定要落到某一后台节点,使用服务在本地缓存的数据(状态),那么这个服务就是有状态的服务。我们以前在本地内存中建立的数据缓存、Session缓存,到现在的微服务架构中就应该把这些数据迁移到分布式缓存中存储,让业务服务变成一个无状态的计算节点。迁移后,就可以做到按需动态伸缩,微服...