「内存数据库」SAP HANA的不可告人的秘密
2019年10月15日 - 网易
简单的方法是两者都做,例如以柱状和行状两种格式存储数据。通过这种方式,用户可以访问其中之一,或者其他更有意义的。当然,这个选择是有代价的。在这种情况下,数据需要存储两次——将优点和缺点结合起来。更好的方法是以某种方式组合特性,这样一方面的缺点就可以由另一种技术弥补(反之亦然)。优点和缺点的结合。这就...
详情
Java面试官:在使用mysql数据库时,遇到重复数据怎么处理
2019年8月6日 - 网易
1、设置双主键模式现在就无法插入重复数据了。2、添加unique索引这两种看起来形式好像有一点区别,但是能起到相同的作用。此时我们可以插入两条重复的数据,会发现报错。当然我们还可以在数据库中去验证一下:在这里我们统计的是first_name和last_name的重复记录数,上面已经用两种方法设置了,这里肯定就是0了。
详情
面试真经 | 大数据/数仓面试灵魂30问(附答案 | 已斩offer)
2019年12月27日 - 网易
④最好数据的校验工作,比如通过脚本方式检测hive表的文件数量,并进行文件合并。⑤合并多个文件数据到一个文件中,重新构建表。24.orderby、sortby、distributeby、clusterby答:orderby全局排序sortby局部排序(reduce)通过修改distributeby和sortby字段的方法进行数据重分布。25.udf、udtf?处...
详情