数据仓库建设方案和经验总结
我们在进行数据仓库调研时,必须优先考虑业务需求,因为数据仓库的本质就是为管理服务提供数据支持。同时,也需要关注数据标准的治理和相应的技术架构设计。从功能角度来看,数据仓库在数据取数之后,主要服务于三个方面:数据服务、数据分析和数据指标。数据服务包括提供AR分析、数据共享、数据模型构建以及统一数据采集等功能;...
我在淘宝写SQL|ODPS SQL 优化总结
数据仓库,是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合。数据仓库从Oracle(单机、RAC),到MPP(Greenplum),到Hadoop(Hive、Tez、Sprak),再到批流一体Flink/Blink、数据湖等,SQL都是其主流的数据处理工具。海量数据下的高效数据流转,是数据同学必须直面的一个挑战。本文结合阿里自研的ODPS平台,...
AI/ML 数据湖参考架构架构师指南(1)
使用对象存储作为数据湖和数据仓库的基础,可以生成能够保存所有数据的解决方案。结构化存储驻留在基于OTF的数据仓库中,非结构化存储驻留在数据湖中。MinIO的同一实例可用于两者。在MinIO,我们将基于OTF的数据仓库和数据湖的这种组合称为现代数据湖,我们将其视为所有AI/ML工作负载的基础。它是收集、存储...
金融行业在数仓建设与数据治理的最佳实践
数据仓库建设遵循互联网公司常见的分层架构,主要包括操作数据存储(ODS)层、明细数据(DWD)层、汇总数据(DWS)层、公共数据集市(DWM)层、个性数据集市(DM)层和应用(APP)层。在ODS层,数据从业务库同步,基本保持和业务库数据一致。数据明细层进一步处理明细数据,进行敏感数据加密、数据质量处理以及命名规范化,并关联常...
数据仓库建模下篇
事实表是用来度量的,基本上都以数量值表示,事实表中的每行对应一个度量,每行中的数据是一个特定级别的细节数据,称为粒度。维度建模的核心原则之一是同一事实表中的所有度量必须具有相同的粒度。这样能确保不会出现重复计算度量的问题。有时候往往不能确定该列数据是事实属性还是维度属性。记住最实用的事实就是数值类...
数据仓库领域常见建模方法及实例演示 | StartDT Tech Lab 16
数据仓库建模方法论可分为:E-R模型、维度模型、DataVault模型、Anchor模型(www.e993.com)2024年12月19日。3.1E-R模型将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述,这种对数据的抽象建模通常被称为E-R实体关系模型。这种建模方法由数据仓库之父BillInmon提出,从全企业的高度设计一个3NF模型,用实体关系(Entity...
SQL 2008数据仓库可扩展性
摘要:SQLServer2008在数据仓库的可伸缩性方面有了巨大的飞跃,从来没有一款产品能够像SQLServer2008这样轻松的满足大型企业对于数据仓库的需求。SQLServer2008中集成了一系列的产品来帮助您构建数据仓库并对其中的数据进行查询和分析。这其中包括SQLServer的关系型数据库系统,AnalysisServices,IntegrationServi...
数据仓库系列之维度模型设计方法
在数据仓库入门系列文章中我们简单介绍了什么是维度建模以及维度建模的基本要素,这篇文章中我开始针对事实表和维度表的类型介绍。一、事实表事实表存储了从业务活动或事件提炼出来的性能度量,它主要包含维度表的外键和连续变化的可加性数值或半可加事实。事实表产生于业务过程中而不是业务过程的描述性信息。它一般是...
如何做到精准预报预警?湖南拥有自己的“气象数据元宇宙”!
数据显示,今年上半年湖南国家站可用率由去年的99.82%跃升至99.96%,区域站可用率由去年的99.78%提升至99.83%,稳居全国前列。“天镜·湖南”的应用为“精密监测、精准预报、精细服务”提供了坚实的支撑保障。汇集各行各业资源建起“数据仓库”湖南省气象信息中心部署建设信息基础设施隔离区(DMZ区),在业务内网与互联...
风很大的“云数仓”到底怎么用?三家企业交出答卷
这些需求无疑对提供基础引擎支持的数据仓库能力,提出了极大的技术挑战。第一个挑战是数据量。精细化营销所筛选的人群包以及人群基数都是巨大的,做交并补计算所需的大量数据导致查询复杂度高,找定向人群的难度就像是在海洋中寻找一颗特定的珍珠,无疑需要性能极高的查询引擎帮助我们快速而准确地找到目标。