2017-05-29 7 views
1

私たちは、Sparkを使用してHDFS上に寄木張りファイルを生成します。寄木細工のメタデータファイルはHDFSで便利ですか?

スパークは、4つのファイル、1つの寄木細工のデータ、および3つのメタデータファイルを生成します。事は、3つのメタデータファイルが1ブロック(ここでは128M)を取るということです。このような多くのタスクを実行すると、無駄に多くのスペースが必要になります。

ファイルが必要ですか?それとも対処するのが良い方法ですか?

+0

メタデータがなければ、パーケットファイルを理解するのはかなり難しいです。 – LiMuBei

+0

データウェアハウスとしてHiveを使用し、PrestoDBとHiveでクエリ –

+1

_ "メタデータファイルは1ブロック、ここでは128M ...多くの領域を取る可能性があります" _ >> ** no。** HDFSブロックサイズにはディスクの使用に大きな影響を与えます。これは大規模なファイルの場合、データの_logical_配布に関するものです。クライアントがHDFSファイルに書き込むとき、現在のブロックが128 MBに達すると、新しいブロックが作成され(ランダムなノードに複製されます)、最終的に各ブロックは通常のLinuxファイルとしてバイト単位で格納されます(余分なLinuxファイルにはメタデータがいくつか加えられます)。 –

答えて

3

寄せ木細工の出力フォルダー内のメタデータファイルはオプションです。各寄せ木ファイルにメタデータが埋め込まれているため、寄せ木張りのファイルを読み込むために火花が必要となりません。

一方、thriftでは、これらのファイルを読み取る必要があります。

Spark 2.0では、デフォルトで寄木細工の概要ファイルを作成しています。 [Ref。 SPARK-15719。]

+0

よろしくお願いします。安全に取り外すことができます。 Spark 1.6.2で '' ENABLE_JOB_SUMMARY''をfalseに設定できるかどうか知っていますか? –

+0

私はスパーク2の前に寄木細工にそのようなconfが存在するかどうかはわかりません。 – eliasah