当前位置 博文首页 > 残缺的歌的专栏:Parquet与ORC:高性能列式存储格式

    残缺的歌的专栏:Parquet与ORC:高性能列式存储格式

    作者:[db:作者] 时间:2021-09-06 16:16

    随着 大数据 时代的到来,越来越多的数据流向了 Hadoop 生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如 Hive Spark ?SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析ORC和Parquet两种典型的列存格式,并对它们做了相应的对比测试。cs