2023-09-09

Parquet

大家好,欢迎来到架构百科,今天跟大家介绍Parquet

Parquet是一种面向列存储的数据格式,既然是面向列存储,那么自然也就天然带有列数据压缩等必备技能, 一个80M的CSV文件,如果转换为使用Parquet格式进行存储,最终只需要5M的存储空间,惊不惊喜? 意不意外?

Parquet格式源于HDFS生态,使用了一种称之为record shredding and assembly的算法来表示嵌套的数据结构,结合数据编码与每列都可以定制的压缩算法,最终才有了这么高效的数据存储格式。

在OLAP(也就是在线分析处理)场景中,我们会经常用parquet格式做数据的导入、导出以及存储备份等常规操作,一个是它历史悠久,另外就是它的存储格式设计的很高效,非常适合这些场景。

如果你经常做大数据相关的日常工作,相信你不缺跟parquet打交道的机会。

返回(Go Back)

向扶墙老师提问

如果有任何架构相关的问题,也欢迎通过点击或者扫描二维码提问

欢迎加入「福强私学」

一起探索「技术、商业与人」

footer img for kb.afoo.me