选择Parquet for Spark SQL 的 5 大原因
2016年3月1日 - Techweb
例如,对查询97中的between子句的处理如下所示:selectcs_bill_customer_skcustomer_sk,cs_item_skitem_skfromcatalog_sales,date_dimwherecs_sold_date_sk=d_date_skandd_month_seqbetween1200and1200+11SparkSQL展示了查询的物理计划中的以下scan语句:+-ScanParquet...
详情
蚂蚁自研数据库OceanBase登顶TPC-H榜单,核心成员撰文讲述背后思考
2021年5月21日 - 网易
(雷锋网注:tpmC值在国内外被广泛用于衡量计算机系统的事务处理能力,为"每分钟内系统处理的新订单个数"的英文缩写)这一事件标志着OceanBase在当时成为全球最快数据库,实现了数据库这一基础技术的革命性突破,也是自研技术对世界IT技术作出的重要贡献。一直以来,数据库与芯片、操作系统并列为全球技术三大件,也是企业IT系...
详情
数据分析的准备工作:从问题分析到数据清洗
2019年1月7日 - 人人都是..
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hvie是建立在Hadoop上的数据仓库基础架构。
详情