Apache Parquet、インキュベータから卒業してトップレベルプロジェクトに
Apache Parquetはオープンソースで開発が進められているカラム型データフォーマット。Apache Hadoopでの利用を想定して開発が進められており、次のようなさまざまなフレームワークやデータモデルと連携して動作することが想定されている。
プロセッシングフレームワーク(MapReduce、Apache Spark、Scalding、Cascading、Crunch、Kite)
データモデル(Apache Avro、Apache Thrift、Protocol Buffers、POJOs)
クエリエンジン(Apache Hive、Impala、HAWQ、Apache Drill、Apache Tajo、Apache Pig、Presto、Apache Spark SQL)
Apache ParquetはTwitterをはじめCloudera、NASA、Netflix、Stripeなどビッグデータを処理する必要がある多くのベンダで実用的に活用されている。今回、インキュベータから卒業してトップレベルプロジェクトになったことで、今後Apache Parquetの活用がさらに促進されると見られる。