Apache Flink不止于计算,数仓架构或兴起新一轮变革
2022年1月8日 - 网易
维基百科的“ApacheFlink”词条下,有这么一句描述:“Flink并不提供自己的数据存储系统,但为AmazonKinesis、ApacheKafka、Alluxio、HDFS、ApacheCassandra和Elasticsearch等系统提供了数据源和接收器”,很快,这句话的前半句或许将不再适用。2021年初,在InfoQ编辑部策划的中,我们提到大数据领域将加速拥抱“...
详情
大数据开发Hive中 ORC 存储格式分析|元数据|数据流|hive|字节...
2021年10月18日 - 网易
比特流也是用于标识null值的,字节流用于存储字典值,一个整形流用于存储字典中每个词条的长度,另一个整形流用于记录字段值。如果不能用字典编码,ORCwriter会知道这个字段的重复值太少,用字典编码效率不高,ORCwriter会使用一个字节流保存String字段的值,然后用一个整形流来保存每个字段的字节长度。在ORC文件中,在...
详情