详解大厂实时数仓建设方案|秒级|数据源|应用层|olap_网易订阅
2024年7月22日 - 网易
第一个是,在Flink实时计算环节,先按照1分钟进行了窗口聚合,将窗口内多行行为数据转一行多列的数据格式,经过这一步操作,原本小时级的关联耗时下降到了十几分钟,但是还是不够的。第二个是,在访问HBase内容之前设置一层Redis缓存,因为1000条数据访问HBase是秒级的,而访问Redis是毫秒级的,访...
详情
如何成为一个合格的数据架构师?|数据仓库|oracle|算法|mapreduce...
2020年6月19日 - 网易
Hive技巧:内部表和外部表、分区、分桶、窗口函数、UDF(UDAF、UDTF)、行转列、列转行等。优化问题:数据热点(数据倾斜问题)、参数优化、业务分表、sql优化。因为Hive底层是MapReduce操作HDFS,所以要了解Map和Reduce阶段在做什么?数据倾斜问题是数据分布不均导致的,和MapReduce原理息息相关,了解了MapReduce,你就会优化...
详情