当前位置 博文首页 > 残缺的歌的专栏:Parquet与ORC:高性能列式存储格式
残缺的歌的专栏:Parquet与ORC:高性能列式存储格式
作者:[db:作者]
时间:2021-09-06 16:16
随着
大数据
时代的到来,越来越多的数据流向了
Hadoop
生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如
Hive
、
Spark
?SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析ORC和Parquet两种典型的列存格式,并对它们做了相应的对比测试。cs